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^® (57) Abstract: The invention relates to a system for intercepting multimedia documents distributed by a network comprising a 
— ^ module (110) for intercepting and processing information packets which is provided with a packet intercepting module (101), a 
module (102) for analysing packet headings, a module (104) for processing packets which are recognised belonging to an already 
established connection for accessing to a storage container, wherein data contained in each packet are saved and a module (103) 
^| in the form of an automation processing the received packets proper to a new connection. The inventive system also comprises a 
^ module for analysing the content of data stored in the containers, recognising a used protocol, analysing a content transported by 
\^ said protocol and for recreating the intercepted documents. 

[Suite sur la page suivante] 



WO 2005/064885 Al I II III l« 



RO, RU, SC, SD, SE, SG, SK, SL, SY, TJ, TM, TN, TR, 
TT, TZ, UA, UG, US, UZ, VC, VN, YU, ZA, ZM, ZW. 

(84) Etats designes (regional) : brevet ARIPO (BW, GH, GM, 
KE, LS, MW, MZ, SD, SL, SZ, TZ, UG, ZM, ZW), brevet 
eurasien (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM), brevet 
europeen (AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, 
FR, GB, GR, HU, IE, IT, LU, MC, NL, PT, RO, SE, SI, SK, 
TR), brevet OAPI (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, 
GW, ML, MR, NE, SN, TD, TG). 



Publiee : 

— avec rapport de recherche Internationale 

En ce qui concerne les codes a deux lettres et autre s abrevia- 
tions, se referer aux "Notes explicatives relatives aux codes et 
abreviations" figurant au debut de chaque numero ordinaire de 
la Gazette du PCT. 



(57) Abrege : ABREGE Le systeme d 'interception de documents multimedias diffuses a partir d'un reseau comprend un module 
(1 10) d'interception et de traitement de paquets d'informations , qui comprend un module (101) d'interception des paquets, un module 
(102) d'analyse de l'en-tete des paquets, un module (104) de traitement des paquets reconnus comme faisant partie d'une connexion 
deja etablie pour acceder a un conteneur de stockage ou les donnees presentes dans chaque paquet recu sont sauvegardees, et un 
module (103) de creation d'un automate charge de traiter les paquets recus propres a une nouvelle connexion. Le systeme comprend 
en outre un module pour analyser le contenu des donnees stockees dans les conteneurs, reconnaitre le protocole utilise, analyser le 
contenu transporte par ce protocole et reconstituer les documents interceptes. Fig.2 
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Svsteme d'interception de documents multimedias 

La presente invention concerne un systeme d'interception de 
5 documents multimedias diffuses a partir d'un reseau. 

L'invention concerne ainsi d'une fagon generate un procede et un 
systeme de tracabilite des contenus de documents numeriques pouvant 
comporter aussi bien des images, du texte, des signaux audio, des 
signaux video ou un melange de ces differents types de contenus au sein 
10 de documents multimedias. 

L'invention s'applique aussi bien a des systemes d'interception actifs 
pouvant conduire a un blocage de la transmission de certaines 
informations qu'a des systemes d'interception passifs permettant de 
reperer certaines informations transmises sans bloquer la retransmission 
15 de ces informations ou meme a des systemes de simple ecoute n'affectant 
pas la transmission des signaux. 

L'invention vise a permettre un controle efficace de la diffusion de 
I'information en assurant une interception efficace des informations 
diffusees a partir d'un reseau et I'identification fiable et rapide 
20 d'informations predeterminees. 

L'invention vise en outre a permettre une identification e 
documents meme dans le cas ou il existe de grandes quantites 
d'informations diffusees a partir d'un reseau. 

Ces buts sont atteints grace a un systeme d'interception de 
25 documents multimedias diffuses a partir d'un premier reseau, caracterise 
en ce qu'il comprend un module d'interception et de traitement de 
paquets d'informations comportant chacun un en-tete d'identification et un 
corps de donnees, le module d'interception et de traitement de paquets 
comprenant des premiers moyens d'interception des paquets diffuses a 
30 partir du premier reseau, des moyens d'analyse de I'en-tete des paquets 
afin de determiner si un paquet analyse fait partie d'une connexion deja 
etablie, des moyens de traitement des paquets reconnus comme faisant 
partie d'une connexion deja etablie pour determiner I'identificateur de 
chaque paquet recu et acceder a un conteneur de stockage ou les 
35 donnees presentes dans chaque paquet recu sont sauvegardees, et des 
moyens de creation d'un automate charge de traiter les paquets recus 
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propres a une nouvelle connexion si les moyens d'analyse de I'en-tete des 
paquets ont revele qu'un paquet analyse constitue une demande de 
nouvelle connexion, les moyens de creation d'un automate comprenant 
notamment des moyens de creation d'un nouveau conteneur de stockage 
5 destine a contenir les ressources necessaires au stockage et a la gestion 
des donnees produites par les moyens de traitement de paquets associes 
a la nouvelle connexion, un triplet <identificateur, drapeau de I'etat de la 
connexion, conteneur de stockage> etant cree et associe a chaque 
connexion par lesdits moyens de creation d'un automate, et en ce qu'il 

10 comprend en outre des moyens pour analyser le contenu des donnees 
stockees dans les conteneurs, reconnaitre le protocole utilise parmi un 
ensemble de protocoles standards tels que notamment http, SMTP, FTP, 
POP, IMAP, TELNET, P2P, analyser le contenu transports par ce protocole 
et reconstituer les documents interceptes. 

15 De facon plus particuliere, les moyens d'analyse et les moyens de 

traitement comprennent une premiere table d'etablissement de connexion 
contenant, pour chaque connexion en cours d'etablissement, un 
identificateur "idConnexion" et un drapeau "etat connexion", et une 
deuxieme table d'identification de conteneur contenant, pour chaque 

20 connexion deja etablie, un identificateur "idConnexion" et une reference 
"refConteneur" qui identifie le conteneur dedie au stockage des donnees 
extraites des trames de la connexion ayant pour identificateur 
"idConnexion". 

Le drapeau "etatConnexion" de la premiere table d'etablissement de 
25 connexion peut prendre trois valeurs possibles (P10, Pll, P12) selon que 
le paquet detecte correspond a une demande de connexion par un client, 
a une reponse d'un serveur ou a une confirmation par le client. 

Selon une caracteristique importante de la presente invention, les 
premiers moyens d'interception des paquets, les moyens d'analyse de I'en- 
30 tete des paquets, les moyens de creation d'un automate, les moyens de 
traitement de paquets et les moyens d'analyse du contenu des donnees 
stockees dans les conteneurs fonctionnent de facon autonome et 
asynchrone. 

Le systeme d'interception selon I'invention comprend en outre un 
35 premier module de stockage du contenu des documents interceptes par le 
module d'interception et de traitement de paquets et un deuxieme module 
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de stockage des informations concernant au moins I'emetteur et le 
destinataire des documents interceptes. 

Avantageusement, le systeme d'interception comprend en outre un 
module de stockage d'informations concernant des composantes resultant 
5 d'une dissection du contenu des documents interceptes. 

Selon un autre aspect de I'invention, le systeme d'interception 
comprend en outre un systeme centralise comprenant des moyens de 
fabrication d'empreintes de documents sensibles a surveiller, des moyens 
de fabrication d'empreintes de documents interceptes, des moyens de 

10 stockage des empreintes fabriquees a partir des documents sensibles a 
surveiller, des moyens de stockage des empreintes fabriquees a partir des 
documents interceptes, des moyens de comparaison d'empreintes issues 
des moyens de stockage des empreintes fabriquees a partir des 
documents interceptes et d'empreintes issues des moyens de stockage 

15 des empreintes fabriquees a partir des documents sensibles a surveiller et 
des moyens de traitement d'alertes contenant les references des 
documents interceptes correspondant a des documents sensibles. 

Dans ce cas, le systeme d'interception peut comprendre des 
moyens de selection reagissant aux moyens de traitement d'alertes pour 

20 assurer le blocage ou la retransmission de documents interceptes, vers un 
deuxieme reseau, selon les resultats delivres par les moyens de production 
d'alertes. 

Selon une application avantageuse, le systeme centralise comprend 
en outre des moyens pour associer a chaque document sensible a 
25 surveiller des droits definissant les conditions d'exploitation du document, 
et des moyens de stockage des informations relatives a ces droits. 

Le systeme d'interception selon I'invention peut aussi etre interpose 
entre un premier reseau de type Intranet et un second reseau de type 
Intranet ou encore entre un premier reseau de type Internet et un second 
30 reseau de type Internet. 

Le systeme d'interception selon I'invention peut etre interpose entre 
un premier reseau de type Intranet et un second reseau de type Internet 
ou entre un premier reseau de type Internet et un second reseau de type 
Intranet. 
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Le systeme selon Pinvention peut comprendre un gSnSrateur de 
requetes a partir de documents sensibles a protSger, pour injecter des 
requetes dans Ie premier rSseau. 

Selon un mode particulier de realisation, le generateur de requetes 
5 comprend : 

- des moyens de production de requetes a partir des documents 
sensibles a surveiller, 

- des moyens de stockage des requetes produites, 

- des moyens de fouille du premier reseau a Paide d f au moins un 
10 moteur de recherche utilisant les requetes prScSdemment stockSes, 

- des moyens de stockage de references de fichiers suspects issus 
du premier reseau, et 

- des moyens d f aspiration des fichiers suspects references dans les 
moyens de stockage de references et du voisinage eventuel de ces fichiers 

15 suspects. 

Selon une application particuliere les moyens de comparaison 
d'empreintes dSlivrent une liste de documents suspects retenus avec un 
degrS de pertinence par rapport a des documents sensibles et les moyens 
de traitement d f alertes dSlivrent les references d f un document intercepts 
20 lorsque le degre de pertinence de ce document est superieur a un seuil 
predetermine. 

Le systeme d'interception peut en outre comprendre, entre lesdits 
moyens de comparaison d'empreintes et lesdits moyens de traitement 
d'alertes, un module de calcul de similarity entre documents qui 
25 comprend : 



(a) des moyens de production d'une onde d'interfSrence representant le 
rSsultat d'appariement entre un vecteur de concepts pris dans un 
ordre donne definissant Pempreinte d f un document sensible et un 

30 vecteur de concepts pris dans un ordre donne definissant Pempreinte 

d'un document intercepts suspect, et 

(b) des moyens de production d f un vecteur d'interfSrence a partir de 
ladite onde d'interfSrence permettant de determiner un score de 
ressemblance entre le document sensible et le document intercepts 

35 suspect considSrSs, les moyens de traitement d'alertes delivrant les 

references d'un document intercepts suspect lorsque la valeur du 
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score de ressemblance de ce document est superieure a un seuil 
predetermine. 

De facon alternative, le systeme d'interception comprend en outre, 
entre, entre lesdits moyens de comparaison d'empreintes et lesdits 
5 moyens de traitement d'alertes, un module de calcul de similarite entre 
documents qui comprend des moyens de production d'un vecteur de 
correlation representant le degre de correlation entre un vecteur de 
concepts pris dans un ordre donne definissant I'empreinte d'un document 
sensible et un vecteur de concepts pris dans un ordre donne definissant 

10 I'empreinte d'un document intercepts suspect, le vecteur de correlation 
permettant de determiner un score de ressemblance entre le document 
sensible et le document intercepts suspect consideres, les moyens de 
traitement d'alertes delivrant les references d'un document intercept^ 
suspect lorsque la valeur du score de ressemblance de ce document est 

15 superieure a un seuil predetermine. 

D'autres caracteristiques et avantages de I'invention ressortiront de 
la description suivante de modes particuliers de realisation, faite en 
reference aux dessins annexes sur lesquels : 

- la Figure 1 est un schema-bloc illustrant le principe general de la 
20 constitution d'un systeme d'interception de documents multimedias selon 

I'invention, 

- les Figures 2 et 3 sont des vues schematiques illustrant le 
processus d'interception et de traitement de paquets mis en ceuvre par 
I'invention lors de I'interception de documents multimedias, 

25 - la Figure 4 est un schema-bloc montrant les differents modules 

d'un exemple de systeme global d'interception de documents multimedias 
selon I'invention, 

- la Figure 5 illustre les differentes etapes d'un processus de 
confinement de documents sensibles pouvant etre mis en ceuvre selon 

30 I'invention, 

- la Figure 6 est un schema-bloc d'un exemple de systeme 
d'interception selon I'invention montrant le traitement d'alertes et la 
generation de rapports dans un cas ou des requites sont generees pour 
interroger des sites suspects et detecter des documents suspects, 

35 - la Figure 7 est un schema montrant les differentes etapes d'un 

processus d'interception selon le systeme de la Figure 6, 
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- la Figure 8 est un schema-bloc montrant le processus de 
production d'un dictionnaire de concepts a partir d'une base de 
documents, 

- la Figure 9 est un organigramme montrant les differentes etapes 
5 de traitement et de partitionnement d'une image avec etablissement des 

vecteurs caracterisant la distribution spatiale de composantes iconiques 
d'une image, 

- la Figure 10 montre un exemple de partitionnement d'une image 
et de creation d'un vecteur caracteristique de cette image, 

10 - la Figure 11 montre une rotation de 90° de I'image partitionnee 

de la Figure 10 et la creation d'un vecteur caracteristique de cette image, 

- la Figure 12 montre le principe de construction d'une base de 
concepts a partir de termes, 

- la Figure 13 est un schema bloc montrant le processus de 
15 structuration d'un dictionnaire de concepts, 

- la Figure 14 montre la structuration d'une base d'empreintes, 

- la Figure 15 est un organigramme montrant les differentes etapes 
de construction d'une base d'empreintes, 

- la Figure 16 est un organigramme montrant les differentes etapes 
20 d'identification de documents, 

- la Figure 17 est un organigramme montrant la selection d'une 
premiere liste de reponses, 

- les Figures 18 et 19 montrent deux exemples d'ondes 
d'interference ; et 

25 - les Figures 20 et 21 montrent deux exemples de vecteurs 

d'interference correspondent respectivement aux exemples d'ondes 
d'interference des figures 18 et 19. 

Le systeme d'interception de documents multimedias diffuses a 
partir d'un premier reseau A comprend un module principal 100 qui 

30 comprend lui-meme un module 110 d'interception et de traitement de 
paquets d'informations comportant chacun un en-tete d'identification et un 
corps de donnees. Le module 110 d'interception et de traitement 
d'informations est ainsi un module de bas niveau, qui est lui-meme associe 
a des moyens 111 d'analyse du contenu de donnees, de reconnaissance 

35 de protocole et de reconstitution des documents intercepts (Fig. 1, 4 et 
6). 
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Les moyens 111 fournissent les informations relatives aux 
documents interceptes d'une part a un module 120 de stockage du 
contenu des documents interceptes et d'autre part a un module 121 de 
stockage des informations contenant au moins Pemetteur et le destinataire 
5 des documents interceptes (Fig. 4 et 6). 

Le module principal 100 coopere avec un systeme centralise 200 
destine a permettre la production d'alertes contenant les references des 
documents interceptes correspondant a des documents sensibles identifies 
au prealable. 

10 Suite a I'intervention du systeme centralise 200, le module principal 

100 peut le cas echeant, par I'intermediaire de moyens 130, bloquer de 
fagon selective la transmission, vers un deuxieme reseau B, de documents 
interceptes identifies comme correspondant a des documents sensibles 
(Fig. 4). 

15 Un generateur de requites 300 permet le cas echeant d'assurer 

une fouille du premier reseau A a partir de requetes produites a partir de 
documents sensibles a surveiller, afin d'identifier des fichiers suspects 
issus du premier reseau A (Fig. 1 et 6). 

Ainsi, dans un systeme d'interception selon I'invention, on retrouve 

20 dans un module principal 100 des activites d'interception et de blocage de 
protocoles reseaux a la fois a un bas niveau puis a un haut niveau avec 
une fonction d'interpretation des contenus. Ce module principal 100 se 
situe dans une position entre les reseaux A et B qui lui permet 
Pinterception active ou passive avec une fonction eventuelle de blocage, 

25 selon les configurations et la cooperation avec des reseaux de type 
Intranet ou Internet. 

Le systeme centralise 200 regroupe differentes fonctions qui seront 
detaillees plus loin, de gestion de droits, de calcul d'empreintes de 
documents, de comparaison et de prise de decision. 

30 Le generateur de requetes 300 est optionnel pour certaines 

applications et peut inclure en particulier la generation de requetes P2P 
("point a point"). 

On citera ci-dessous quelques exemples d'applications du systeme 
d'interception selon I'invention : 
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Le reseau A peut etre constitue par un reseau de type Internet sur 
lequel il est procede a une fouille par exemple de type HTML ou P2P active 
tandis que les documents sont regus sur un reseau B Intranet. 

Le reseau A peut etre egalement constitue par un reseau de type 
5 Internet sur lequel on procede a une ecoute P2P passive au niveau du 
systeme d'interception, les informations etant retransmises sur un reseau 
B du meme type Internet. 

Le reseau A peut encore etre constitue par un reseau d'entreprise 
du type Intranet sur lequel le systeme d'interception peut operer le cas 
10 echeant le blocage total de certains documents identifies comme 
correspondant a des documents sensibles, ces documents n'etant alors 
pas retransmis vers un reseau externe B de type Internet. 

Les premier et deuxieme reseaux A et B peuvent encore etre 
constitues tous deux par des reseaux de type Intranet pouvant appartenir 
15 a la meme entreprise, le systeme d'interception pouvant assurer un 
blocage selectif des documents entre la partie A du reseau d'entreprise et 
la partie B de ce reseau. 

L'invention peut etre mise en oeuvre avec tout un ensemble de 
protocoles standards tels que notamment HTTP, SMTP, FTP, POP, IMAP, 
20 TELNET, P2P. 

On rappellera a titre d'exemple le fonctionnement des protocoles 

P2P. 

Les echanges P2P se font au moyen d'ordinateurs, denommes 
noeuds, qui partagent des contenus et les descriptions de ces contenus 
25 avec leurs voisins. 

Un echange P2P s'effectue souvent sur le mode suivant : 
Une requete est emise par un noeud U, 

Cette requete est transmise de voisins en voisins au sein de la 
structure en suivant les regies de chaque protocole P2P specifique, 

30 - Lorsqu'un noeud D est a meme de repondre a la requete r, il envoie 
un message de reponse R a destination du noeud emetteur U. Ce 
message contient des informations relatives au chargement d'un 
contenu C. Ce message R prend frequemment un chemin similaire a 
celui par lequel il est venu. 

35 - Lorsque differentes reponses R sont arrivees sur le noeud U, celuhci 
decide (rutilisateur en general) quelle reponse R retenir et il demande 
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ainsi le chargement direct (point-a-point) du contenu C decrit dans la 
reponse R depuis le noeud D vers le nceud U ou il se trouve. 

Les requetes et les reponses R sont pourvues d'une identification 
qui permet de determiner quelles sont les reponses R qui correspondent a 
5 une requete r donnee. 

Le module principal 100 du systeme d'interception selon I'invention, 
qui contient les elements d'interception et de blocage des differents 
protocoles se situe sur le reseau soit a la place d'un noeud du reseau P2P, 
soit entre deux nceuds. 
10 Le fonctionnement basique du mecanisme P2P d'interception et de 

blocages passifs et actifs sera explicite ci-dessous. 

L'interception P2P passive consiste a observer les requetes et les 
reponses qui passent dans le module 100, en employant cette 
identification pour retrouver le bon appariement 
15 Le blocage P2P passif consiste a observer les requetes qui passent 

dans le module 100, puis a bloquer dans une memoire tampon 120, 121 
les reponses pour effectuer le tri. Ce tri consiste a employer les reponses 
pour demarrer le telechargement de fichier vers le systeme commun 200 
et a demander a celui-ci de comparer ce fichier (ou une partie de ce 
20 fichier) par extraction d'empreinte avec la base de documents a proteger. 
Si la comparaison est positive et indique que le fichier telecharge 
correspond a un document protege, les autorisations de diffusion de ce 
document protege sont consultees et une decision est prise qui avertit le 
module 100 de reemettre la reponse depuis sa memoire tampon 120, 121, 
25 ou de Teffacer ou encore de la remplacer par une reponse "corrigee" : un 
message de reponse portant Pidentification de la requete est emis 
contenant des informations de telechargement orientant vers un serveur 
P2P "ami" (commercial par exemple). 

L'interception P2P active consiste a injecter des requetes d ! un cote 
30 du reseau A puis de les observer selectivement au moyen de Tecoute 
passive. 

Le blocage P2P actif consiste a injecter des requites d'un cote du 
reseau A puis de traiter les reponses a ces requetes au moyen de la 
methode decrite dans Tinterception passive. 
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Pour ameliorer les performances du mecanisme d'ecoute passive, 
on peut, a partir de la position d'interception que constitue le module 100, 
agir de plusieurs manieres : 

- modifier les requetes que Ton voit transiter, par exemple en 
5 augmentant la portee de leur recherche, les reseaux concernes, 
corrigeant les fautes d'orthographe, etc. 

generer des requetes copies destinees a dupliquer I'efficacite de la 
recherche, soit en reexpediant des copies integrates decalees dans le 
temps pour rallonger la recherche, soit en expediant des copies 
10 modifiees de ces requetes pour augmenter la diversite des reponses 
(variantes orthographiques, de domaines, de reseaux). 

Le systeme selon invention permet aux entreprises en particulier 
de controler la diffusion de leurs propres documents et de stopper la fuite 
vers I'exterieur des informations confidentielles. II permet aussi d'identifier 
15 les donnees pertinentes presentes aussi bien a I'interieur qu'a I'exterieur 
de Pentreprise. Ces donnees peuvent etre des documents a usage interne 
ou meme des donnees destinees a la diffusion mais dont Pexploitation doit 
etre en conformite avec le droit d'usage (droit d'auteur, copyright, droit 
moral,...)- Les informations pertinentes peuvent aussi concerner 
20 Penvironnement exterieur : informations sur la concurrence, les clients, 
rumeurs autour d f un produit ou d'un evenement. 

Uinvention combine plusieurs approches allant de la caracterisation 
atomique des contenus a la caracterisation du support et du media de 
diffusion. Plusieurs modules collaborent pour mener a bien ce processus 
25 de tragabilite des contenus. Au sein du systeme centralise 200, un module 
assure la creation d f une empreinte digitale unique, caracterisant le 
contenu de Pceuvre et permettant de le reperer et de suivre sa trace : 
c'est une sorte de test d'ADN qui permet, a partir d'un contenu anonyme, 
de retrouver Toeuvre originate repertoriee et ainsi de verifier ses 
30 informations legates (auteurs, ayants droits, conditions d'utilisation,...) 
ainsi que les conditions d'exploitation autorisees. Le module principal 100 
permet pour sa part d'automatiser et specialiser la scrutation et 
Identification des contenus sur des supports de diffusion varies (web, 
web invisible, forums, newsgroups, peer-to peer, chat) pour la recherche 
35 d'informations sensibles. 
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II permet aussi d'intercepter, d'analyser et d'extraire les contenus 
diffuses entre deux entites de Tentreprise ou I'entreprise et le monde 
exterieur. Le systeme centralise 200 comprend un module utilisant des 
techniques de ContentMining et extrait les informations pertinentes de 
5 grands volumes de donnees brutes, puis les range pour les exploiter 
efficacement. 

Avant de revenir plus en detail sur Parchitecture generate du 
systeme d f interception selon Pinvention, on va maintenant decrire en 
reference aux Figures 2 et 3 le module 110 d'interception et de traitement 

10 de paquets d'informations comportant chacun un en-tete d'identification et 
un corps de donnees. 

On rappelle que dans le monde Internet tous les echanges 
s'effectuent sous forme d'envoi et de reception de paquets. Ces paquets 
sont composees de deux partie : I'entete et le corps (donnees). L'entete 

15 contient les informations decrivant le contenu transports par le paquet 
telles que le type, le numero et la longueur du paquet, I'adresse de 
I'emetteur et du recepteur. Le corps du paquet contient les donnees 
proprement dites. Le corps d'un paquet peut etre vide. 

On peut regrouper les paquets en deux classes : ceux qui servent a 

20 assurer le bon fonctionnement du reseau (connaitre I'etat d'une unite du 
reseau, connaitre I'adresse d'une machine, etablir une connexion entre 
deux machines, ...) et ceux qui servent a transferer des donnees entre les 
applications (envoi et reception de courriel, de fichier, de page, ...)• 

Le transfer! d'un document peut necessiter I'envoi, sur le reseau de 

25 plusieurs paquets. Ces paquets peuvent etre entrelaces avec des paquets 
venant d'autres emetteurs. Un paquet peut transiter par plusieurs 
machines avant d'arriver au destinataire. Les paquets peuvent emprunter 
des chemins differents et arriver dans le desordre (un paquet envoye a 
I'instant t+1 peut arriver avant celui qui est envoye a I'instant t). 

30 Le transfert de donnees peut s'effectuer soit en mode connecte soit 

en mode non connecte. En mode connecte (http, smtp, telenet, ftp, ...) 
qui s'appuie sur le protocole TCP, le transfert de donnees est precede par 
un mecanisme de synchronisation (etablissement de la connexion). 
L'etablissement d'une connexion TCP s'effectue en trois temps (trois 

35 paquets) 
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1) L'appelant (appele client) envoie SYN (paquet dont le drapeau SYN 
est positionne dans I'entete qu paquet), 

2) Le recepteur (appele serveur) repond avec SYN et ACK (paquet dont 
les drapeaux SYN et ACK sont positionnes), 

5 3) L'appelant envoie ACK (paquet dont le drapeau ACK est positionne). 

Le client ainsi que le serveur sont identifies par leurs adresse 
MAC,IP ainsi que le numero de port du service en question. On suppose 
que le client (I'emetteur du premier paquet dont le bit SYN est 
10 positionne) a connaissance du couple (adresse IP du recepteur, numero 
de port du service souhaite). Dans le cas contraire, il demande au 
prealable a connaftre I'adresse IP du recepteur. 

Le module 110 dlnterception de documents a pour role d'identifier 
et de regrouper les paquets transportant les donnees de la meme 
15 application (http, SMTP, telnet, ftp, ...). 

Pour mener a bien cette tache le module dlnterception analyse les 
paquets des couches IP, des couches transports TCP/UDP et des couches 
application (http, SMTP, telnet, ftp, ...). L'analyse s'effectue en plusieurs 
etapes : 

20 - Identification, interception et concatenation des paquets contenant 
des portions d'un ou des documents echanges pendant une 
communication que nous appelons aussi connexion lorsqull s'agit 
d'une communication basee sur le protocole TCP. Une connexion est 
definie par les adresses IP et les numeros de port du client et du 

25 serveur et eventuellement par I'adresse Mac du client et du serveur, 

Extraction des donnees encapsulees dans les paquets qui viennent 
d'etre concatenes. 

Comme indique dans la Figure 2 I'interception et la fusion des paquets 
peuvent etre modelisees par un automate a 4 etats : 
30 P0 : etat charge d'intercepter les paquets diffuses a partir d'un premier 
reseau A (module 101), 
PI : etat charge d'identifier le paquet intercepte a partir de son en-tete 
(module 102). En fonction de la nature du paquet, il active I'etat P2 
(module 103) si le paquet est envoye par le client pour une 
35 demande de connexion. II invoque P3 (module 104) si le paquet fait 

partie d'une communication deja etablie. 
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P2 : I'etat P2 (module 103) a pour role de creer un identificateur unique 
qui sert a caracteriser la connexion et il cree aussi un conteneur de 
stockage 115 contenant les ressources necessaire au stockage et a 
la gestion des donnees qui sont produites par I'etat P3. A une 
5 connexion, il lui associe un triplet <identificateur, drapeau de I'etat 

de la connexion, conteneur de stockage>. 

P3 : I'etat P3 (module 104) a pour role de traiter les paquets associes a 
chaque communication. Pour cela, il determine I'identificateur du 
paquet recu afin d'acceder au conteneur de stockage 115 ou il 
10 sauvegarde les donnees presentes dans le paquet. 

Comme le montre la figure 3, la procedure d'identification et de 
fusion de paquets utilise deux tables 116, 117 : une table 116 
d'etablissement de connexion contenant les connexions qui sont en cours 

15 d'etablissement et une table 117 d'identification de conteneur contenant la 
reference des conteneurs des connexions deja etablies. 

La procedure d'identification examine I'entete de la trame et cree a 
chaque detection d'une nouvelle connexion (le bit SYN est positionne 
uniquement) une entree dans la table 116 d'etablissement de connexion 

20 ou il stocke le couple identificateur de la connexion et le drapeau 
etatConnexlon indiquant I'etat de la connexion <idConnexion, 
etatConnexion> . Le drapeau etatConnexion prend 3 valeurs possibles 
(P10, Pllet P12) : 

etatConnexion est positionne a P10 lors de la detection d'une demande 
25 de connexion, 

etatConnexion est positionne a PI 1 si etatConnexion est egal a P10 et 
I'entete de la trame correspond a une reponse du serveur. Les deux bits 
ack et sync sont positionnes simultanement. 

etatConnexion est positionne a P12 si etatConnexion est egal a Pll et 
30 I'entete de la trame correspond a une confirmation du client. Seul le ACK 
est positionne. 

Le positionnement du drapeau etatConnexion a P12 d'un idConnexion 
implique la suppression dans la table 116 d'etablissement de connexion, 
de I'entree correspondant a cet idConnexion et la creation dans la table 
35 117 d'identification de conteneur d'une entree contenant le couple 
< idConnexion, refConteneur> ou refConteneur designe la reference du 
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conteneur 115 dedie au stockage des donnees extraites des trames de la 
connexion idConnexion. 

L'etape de traitement a pour role de recuperer et de stocker dans les 
conteneurs 115 les donnees echangees entre les emetteurs et les 
5 recepteurs. 

Lors de la reception d'une trame on determine I'identificateur de la 
connexion idConnexion qui permet de localiser grace a refConteneur le 
conteneur 115 de stockage des donnees de la trame. 
A la fin d'une connexion le contenu de son conteneur est analyse, les 

10 differents documents qui le constituent sont stockes dans le module 120 
de stockage du contenu des documents interceptes et les informations 
concernant les destinataires sont stockees dans le module 121 de 
stockage des informations concernant au moins I'emetteur et le 
destinataire des documents interceptes. 

15 Le module 111 d'analyse du contenu des donnees stockees dans les 

conteneurs 125 permet de reconnaftre le protocole utilise parmi un 
ensemble de protocoles standards tels que notamment http, SMTP, ftp, 
POP, IMAP, TELNET, P2P, et de reconstituer des documents interceptes. 
On notera que le module 101 d'interception des paquets, le module 

20 102 d'analyse de I'en-tete des paquets, le module 103 de creation d'un 
automate, le module 104 de traitement de paquets et le module 111 
d'analyse du contenu des donnees stockees dans les conteneurs 115 
fonctionnent de fagon autonome et asynchrone. 

Ainsi, le module 110 d'interception de documents est une 

25 application de la couche reseau, qui intercepte les trames de la couche 
transport (protocole de commande de transmission (TCP) et protocole de 
datagramme utilisateur (UDP)) et des paquets du protocole Internet (IP) 
et, en fonction des applications surveillees, les traite et les fusionne pour 
reconstituer les contenus ayant transite sur le reseau. 

30 Le systeme d'interception selon I'invention, avec son systeme 

centralise 200, peut conduire a plusieurs applications qui toutes ont trait a 
la tracabilite de contenus numeriques de documents multimedias. 

Ainsi, I'invention permet de reperer les diffusions illicites sur les 
supports de diffusion Internet (Net, P2P, newsgroup,...) et Intranet (sites 

35 et publications a I'interieur de I'entreprise), ou d'identifier et de stopper 
toute tentative de diffusion illicite (non conforme au perimetre de 
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confinement d'un document) d'une machine a une autre, ou encore de 
veiller a ce que les operations (publication, modification, edition 
impression, etc.) effectuees sur les documents d'un systeme collaboratif 
(systeme de traitement de I'information destine a un groupe d'utilisateurs) 
5 soient autorisees, c'est-a-dire conformes aux regies etablies par 
I'entreprise. II empeche par exemple la publication d'un document dans 
une rubrique dont un des membres n'a pas le droit de consulter le 
document. 

Le systeme selon I'invention a un cceur technologique commun 

10 base autour de la production, de la comparaison d'empreintes et de la 
generation d'alertes. Les applications se distinguent, d'une part, par 
I'origine des documents regus en entree et, d'autre part, par la maniere 
dont les alertes engendrees lors de I'identification d'un document illicite 
sont traitees. Lors de traitement d'alertes il peut etre produit des rapports 

15 decrivant les usages illicites des documents provoquant ces alertes ou un 
blocage des diffusions illicites de ces documents. La publication d'un 
document dans un groupe de travail peut aussi etre interdite si un des 
membres du groupe n'est pas autorise a exploiter (lire, ecrire, 
imprimer,...) le document. 

20 Si Ton se reporte a la Figure 6, on voit que le systeme centralise 

200 comprend un module 221 de fabrication d'empreintes de documents 
sensibles a surveiller 201, un module 222 de fabrication d'empreintes de 
documents interceptes, un module 220 de stockage des empreintes 
fabriquees a partir des documents sensibles a surveiller 201, un module 

25 250 de stockage des empreintes fabriquees a partir des documents 
interceptes, un module 260 de comparaison d'empreintes issues des 
modules de stockage 250 et 220 et un module 213 de traitement d'alertes 
contenant les references des documents interceptes 211 correspondant a 
des documents sensibles. 

30 Un module 230 permet d'associer a chaque document sensible a 

surveiller 201 des droits definissant les conditions d'exploitation du 
document et un module 240 de stockage des informations relatives a ces 
droits. 

Par ailleurs, un generateUr de requetes 300 peut comprendre un 
35 module 301 de production de requetes a partir des documents sensibles a 
surveiller 201, un module 302 de stockage des requetes produites, un 
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module 303 de fouille du reseau A a I'aide d'un ou plusieurs moteurs de 
recherche utilisant les requites precedemment stockees, un module 304 
de stockage de references de fichiers suspects issus du reseau A et un 
module 305 d'aspiration des fichiers suspects references dans le module 
5 304 de stockage de references. II peut etre egalement procede dans le 
module 305 a une aspiration du voisinage des fichiers suspects ou a 
Inspiration d f une serie de sites predetermines dont les references sont 
stockees dans un module 306 de stockage de references. 

Selon I'invention, on peut ainsi proceder a une fouille automatisee 

10 d'un reseau pour la detection d'oeuvres protegees par le droit d'auteur, en 
fournissant un bilan regulier des oeuvres trouvees sur des sites Intranet, 
Internet, les reseaux P2P (peer-to-peer), des newsgroups et des forums. 
La tragabilite des oeuvres est assuree d'apres leurs originaux, sans 
marquage prealable. 

15 Des rapports 214 envoyes a une frequence choisie apportent les 

informations pertinentes et les documents utiles a ('accumulation de 
donnees sur les modes d'utilisation (licites ou illicites) des oeuvres de 
reference. Une recherche ciblee et une reconnaissance automatique fiable 
des oeuvres d'apres leur contenu assurent la qualite des resultats. 

20 La Figure 7 resume, dans le cas des sites web, le processus de 

protection et d'identification d'un document. II est constitue de deux 
phases : 

Phase de protection 
Cette phase s'effectue en deux etapes 
25 Etape 31: Generation de I'empreinte des documents a proteger 30, 
association a cette empreinte d'un droit d'usage (descriptif du document, 
proprietaire, lecture, ecriture, periode,...) et stockage de ces informations 
dans une base 42. 

Etape 32 : Generation des requetes 41 qui sont utilisees pour identifier les 
30 sites suspects et sont stockees dans une base 43. 

Phase d'identification 

Etape 33 : Aspiration et decomposition des pages des sites : 
35 - Utilisation des requetes generees dans I'etape 32 pour recuperer sur 
le reseau 44 les adresses des sites susceptibles de contenir des 
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donnees protegees par le systeme. Les informations concernant les 
sites identifies sont stockees dans une base des sites suspects. 
Aspiration et decomposition des pages des sites references dans la 
base des sites suspects et dans une base qui est alimentee par les 
5 utilisateurs et contient les references des sites dont on souhaite 

surveiller le contenu (Etape 34). Les resultats sont stockes dans la 
base des contenus suspects 45 qui est constitute de plusieurs sous 
bases, chacune ayant un type particulier de contenu. 
Etape 35: Generation des empreintes des contenus de la base 45 
10 Etape 36: Comparaison de ces empreintes avec les empreintes de la base 
42 et generation des alertes stockees dans une base 47 
Etape 37: traitement des alertes et production des rapports 48. Le 
traitement des alertes utilise la base dissociation de contenus pour 
generer le rapport. Elle contient les relations entre les differents 
15 composants du systeme (les questions, les contenus, I'adresse des 
contenus (site, adresse de la page, adresse locale,...)/ le moteur qui a 
identifie la page, ...). 

Le systeme d'interception selon I'invention peut egalement etre 
integre dans une application qui permet la mise en place d'un processus 
20 d'embargo mimant I'emploi d'un tampon "diffusion restreinte" qui valide 
I'autorisation de diffusion de documents au sein d'un groupe restreint 
d'utilisateurs specifiques parmi un ensemble plus large d'utilisateurs 
echangeant des informations, cette restriction devant pouvoir etre 
supprimee a partir d'une certaine echeance si necessaire. 
25 Dans ce cas, I'embargo est automatique et s'applique a la totalite 

des documents manipules au sein de I'ensemble plus large qui constitue 
un systeme collaboratif. Le systeme decouvre pour tout document Y en 
attente d'etre publie si celui-ci est ou contient une partie d'un document Z 
deja publie et si les droits associes a cette publication de Z sont 
30 compatibles avec ceux que Ton tente d'associer a Y. 

Un tel processus d'embargo va etre decrit ci-dessous. 
Lorsqu'un utilisateur souhaite publier un document, le systeme doit 
dans un premier temps determiner si ce document contient tout ou partie 
d'un document deja publie et determiner les droits afferents si tel est le 
35 cas. 

Le processus met ainsi en jeu les etapes suivantes : 
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Etape 1 : Generation d'une empreinte E pour le document C, association a 
cette empreinte de la date D de la requite ainsi que I'utilisateur U ayant 
fait la demande, ainsi que la nature N precise de la demande (courriel, 
5 publication generate, memo, etc.). 

Etape 2 : comparaison de cette empreinte E avec celles deja presentes 
dans une base AINBase qui contient Pempreinte de chaque document deja 
enregistre, munie des informations suivantes : 
10 - utilisateur ayant fait la publication : U2 

- droits associes a cette publication (par exemple groupe de travail 
auquel ce document appartient, groupes de travail qui ont le droit de le 
lire, groupes de travail qui ont le droit de le modifier, etc.) : G 

- date limite de validite du tampon : DV 

15 

Etape 3 : SI I'empreinte E est similaire a une empreinte F deja presente 
dans la base AINBase, on compare les droits associes a F avec les 
informations collectees a I'etape 1. Deux cas se presentent : 

20 SI (D<=DV) ET (U n'appartient pas a G) ALORS 

les droits, le statut de I'utilisateur ne sont pas compatibles et si la date de 
publication est anterieure a la fin de validite, le systeme rejette la 
demande : 

I'empreinte E n'est pas inseree dans la AINBase, 
25 le document C n'est pas insere dans la base de documents du systeme 
collaboratif, 

une exception X est declenchee. 
SINON : 

30 les droits et le statut de I'utilisateur sont compatibles, alors le document 
sera accepte. Si aucun droit n'a deja ete associe avec ce contenu, 
I'utilisateur qui le publie deviendra I'utilisateur-referent de ce document. II 
pourra mettre en place son propre systeme d'embargo : 
1. I'empreinte E est inseree dans la AINBase, 

35 2. le document C est insere dans la base de documents du systeme 
collaboratif, 
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La comparaison de la date peut permettre de mettre fin a un embargo de 
maniere automatisee des que la date du jour depasse la date limite de 
5 I'embargo definie au depart, ce qui a pour effet de neutraliser les 
contraintes correspondantes de publication, modification, etc. sur le 
document. 

La Figure 4 montre de facon synthetique un systeme d'interception 
selon I'invention qui permet de stopper toute tentative de diffusion de 

10 documents non conformes au droit d'usage des documents. 

Une diffusion non conforme peut correspondre dans cet exemple 
soit a renvoi d'un document non autorise a quitter son unite de 
confinement, soit a Penvoi d'un document a une personne non autorisee a 
recevoir le document, soit a la reception d'un document presentant un 

15 caractere particulier, protege par le droit d'auteur par exemple. 

Le systeme d'interception selon I'invention comprend un module 
principal 100 qui est charge de controler le contenu interchange entre 
deux brins A et B de reseaux (Internet ou Intranet). Pour cela, les paquets 
entrants et sortants sont interceptes et mis en correspondance afin de 

20 determiner la nature de la communication, et de reconstituer le contenu 
des documents echanges durant une communication. La mise en 
correspondance des trames permet de determiner la machine qui a 
I'initiative de la communication, de connaTtre le protocole utilise, d'associer 
a chaque contenu intercepts sa finalite (son emetteur, ses destinataires du 

25 contenu, la nature de I'operation :"get", "post", "put", "send"...). 
L'emetteur comme les destinataires peuvent etre des personnes 
physiques, des machines, ou tout type de reference permettant de 
localiser un contenu. Parmi les finalites traitees on trouve : 
1. Envoi d'un courriel d'une emetteur vers un ou plusieurs destinataires, 

30 2. Demande de telechargement d'une page web ou d'un fichier, 

3. Envoi d'un fichier ou d'une page web en utilisant des protocoles de 
type http, ftp ou p2p par exemple. 

Lors de I'interception d'une finalite d'envoi ou de telechargement 
d'une page web ou d'un fichier, la finalite en question est sauvegardee en 

35 attendant que la page ou le fichier en question soit intercepts puis traite. 
Si le contenu intercepts contient des documents sensibles, une alerte est 
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produite contenant toutes les informations utiles (les correspondants, les 
references des documents proteges, ce qui permet au systeme de 
traitement des alertes differentes actions : 

1. Tracer les contenus et superviser les procedures d'acces aux 
5 contenus, 

2. Produire des rapports sur les echanges (statistiques, etc.), 

3. Bloquer si necessaire la transmission associee a des finalites non 
conformes. 

Le systeme d'interception charge de controler le contenu des 
10 documents diffuses par le reseau A et d'interdire la diffusion ou la 
transmission a des destinataires ou groupes de destinataires non autorises 
a recevoir le document sensible comprend essentiellement un module 
principal 100 avec un module d'interception 110 charge de recuperer et de 
decomposer les contenus qui transitent ou qui sont presents sur les 
15 reseaux de diffusion A. Les contenus sont analyses afin d'en extraire les 
documents constituant le contenu intercepte. Les resultats sont stockes 
dans : 

- le module de stockage 120 qui stocke les documents extraits des 
contenus intercepte, 

20 - le module de stockage 121 contenant les associations entre les 

documents extraits, les contenus interceptes et la finalite : les 
destinataires des contenus interceptes, et, le cas echeant, 

- le module de stockage 122 contenant des informations relatives 
aux composantes resultant d'une dissection des documents interceptes. 

25 Un module 210 est charge de produire des alarmes signalant qu'un 

contenu intercepte contient une partie d f un ou de plusieurs documents 
sensibles. Ce module 210 est compose essentiellement de deux modules : 

- le module 221, 222 charge de fabriquer les empreintes des 
documents sensibles et des documents interceptes (voir Figure 6), 

30 - le module 260 confronte les empreintes des documents 

interceptes avec celles de la base des documents sensibles et produit des 
alertes contenant les references des documents sensibles qui font partie 
des documents interceptes. Les resultats en sortie du module 250 sont 
stockes dans une base 261. 
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Un module 230 permet d'associer a chaque document les droits 
definissant les conditions d'exploitation du document. Les resultats du 
module 230 sont stockes dans la base 240. 

Le module 213 est charge de traiter les alertes et de produire les 
5 comptes rendus 214. En fonction de la politique adoptee, le module 213 
peut bloquer la circulation du document contenant des elements sensibles, 
par I'intermediaire du module 130 de blocage ou retransmission vers un 
reseau B. 

Une alette est composee de la reference, dans le module de 

10 stockage 120 du contenu du document intercepts qui a provoque I'alerte 
et des references de documents sensibles qui sont source de I'alerte. A 
partir de ces references et des informations enregistrees dans les bases 
240 et 121, le module 213 decide de donner suite ou non a I'alerte. 
L'alerte est prise en compte si le destinataire du contenu n'est pas declare, 

15 dans la base 240, parmi les exploitants du document sensible qui est 
source de I'alerte. 

La prise en compte d'une alerte provoque la non transmission du 
contenu et la production du rapport 214 signalant les raisons du blocage. 
Ce rapport est archive, un compte rendu est envoye en temps reel aux 

20 responsables et, en fonction de la politique adoptee, I'emetteur est averti 
par un message electronique par exemple. Les contenus du module de 
stockage 120 qui n'ont pas provoque d'alerte ou dont les alarmes ont ete 
ignorees sont remis en circulation par le module 130. 

La Figure 5 resume le fonctionnement du processus d'interception 

25 et de blocage de documents sensibles a Nnterieur des perimetres 
d'exploitation definis par I'entreprise. Ce processus comprend une 
premiere partie 10 correspondant a I'enregistrement pour le confinement 
et une deuxieme partie 20 correspondant a I'interception et au blocage. 

Le processus d'enregistrement pour le confinement comprend une 

30 etape 1 de creation des empreintes et des droits associes, identifiant le 
perimetre de confinement (proprietaires, groupes d'utilisateurs). Depuis le 
poste 11 de creation de document, une etape 2 consiste en renvoi des 
empreintes vers un serveur mandataire 14, puis une etape 3 reside dans 
le stockage des empreintes et des droits dans une base d'empreintes 15. 

35 Une etape 4 correspond a I'envoi d'un accuse de reception par le serveur 
mandataire 14 vers le poste 11. 
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Le processus d'interception et de blocage comprend eventuellement 
les etapes suivantes : 

Etape 21 d'envoi d'un document depuis un poste 12 d'expedition de 
documents. 

5 Etape d'interception, au niveau du module d'interception 16, du 

document quittant les brins du reseau a surveiller. 
Etape 22 de creation d'empreinte du document recupere. 
Etape 23 de comparaison d'empreintes en liaison avec la base 15 et le 
module d f interception 16 pour generer des alertes signalant la 
10 presence d'uri document sensible dans les contenus interceptes. 

Etape 24 de sauvegarde des transactions dans une base 17. 
Etape 25 de verification des droits. 

Etape 26 de blocage ou transmission vers un poste 13 de reception de 
documents, selon que le document intercepts est autorise ou 
15 non a quitter le perimetre de confinement. 

On decrira maintenant en reference aux Figures 8 et 12 a 15 le 
principe general d'un precede d'indexation de documents multimedias 
selon I'invention, qui conduit a la construction d f une base d'empreintes, 
chaque document indexe etant associe a une empreinte qui lui est propre. 
20 A partir d'une base de documents multimedias 501, une premiere 

etape 502 consiste en ['identification et I'extraction, pour chaque 
document, de termes t, constitues par des vecteurs caracterisant des 
proprietes du document a indexer. 

A titre d'exemple, il est possible dMdentifier et d'extraire des termes 
25 tj pour un document sonore. 

Un document audio est d'abord decompose en trames qui sont 
regroupees par la suite en clips dont chacun va etre caracterise par un 
terme constitue par un vecteur de parametres. Un document audio sera 
done caracterise par un ensemble de termes tj qui seront stockes dans une 
30 base de termes 503 (Figure 8). 

Les documents audio dont on a extrait leur vecteur caracteristique 
peuvent etre echantillonnes par exemple a 22 050 Hz afin d'eviter Peffet 
de crenelage. Le document est ensuite divise en un ensemble de trames 
dont le nombre d'echantillons par trame est fixe en fonction du type de 
35 fichier a analyser. 
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Pour un document audio riche en frequences et qui contient 
beaucoup de variations, comme les films par exemple, les emissions de 
varietes ou encore les emissions sportives, le nombre d'echantillons dans 
une trame doit etre faible, de I'ordre de 512 echantillons par exemple. En 
5 revanche, pour un document audio homogene ne contenant que de la 
parole ou de la musique par exemple, ce nombre doit etre important, par 
exemple de I'ordre de 2 048 echantillons. 

Un clip de document audio peut etre caracterise par differents 
parametres servant a constituer les termes et caracterisant les 
10 informations temporelles (comme I'energie ou le taux d'oscillation par 
exemple) ou frequentielles (comme la largeur de bande par exemple). 

On a considere ci-avant le cas de documents multimedias 
comportant des composantes audio. 

Dans le cas de ['indexation de documents multimedias comportant 
15 des signaux video, on peut choisir des termes tj constitues par des 
images-cles representant des groupes d'images homogenes consecutives. 

Les termes tj peuvent a leur tour representer par exemple les 
couleurs dominantes, les proprietes texturales, les structures de zones 
dominantes des images-cles du document video. 
20 D'une maniere generate, dans le cas des images qui sera developpe 

plus en detail plus loin, les termes peuvent representer les couleurs 
dominantes, les proprietes texturales, les structures des zones dominantes 
de I'image. Plusieurs procedes peuvent itre mis en ceuvre de fagon 
alternative ou cumulative, aussi bien sur la totalite de I'image que sur des 
25 portions de I'image, pour determiner les termes tj devant caracteriser 
I'image. 

Dans le cas d'un document contenant du texte, les termes tj 
peuvent etre constitues par des mots du langage parle ou ecrit, par des 
nombres et par d'autres identificateurs constitues de combinaisons de 

30 caracteres (par exemple des combinaisons de lettres et de chiffres). 

Si Ton se reporte a nouveau a la Figure 8, a partir d'une base de 
termes 503 comprenant P termes, on procede dans une etape 504 a un 
traitement des termes tj et a leur regroupement en concepts q (Figure 12) 
destines a etre stockes dans un dictionnaire de concepts 505. II s'agit ici 

35 d'elaborer un ensemble de signatures caracterisant une classe de 
documents. Les signatures sont des descripteurs qui, par exemple dans le 
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cas de Pimage, represented la couleur, la forme et la texture. Un 
document peut alors etre caracterise et represents par les concepts du 
dictionnaire. 

Une empreinte d'un document peut alors etre formee par les 
5 vecteurs signatures de chaque concept du dictionnaire 5. Le vecteur 
signature est constitue par les documents ou le concept q est present 
ainsi que par les positions et le poids de ce concept dans le document. 

Les termes tj extraits d'une base de documents 501 sont stockes 
dans une base de termes 503 et traites dans un module 504 d'extraction 
10 de concepts q qui sont eux-memes regroupes dans un dictionnaire de 
concepts 505. La Figure 12 illustre le processus de construction d'une base 
de concepts q (1< i < m) a partir de termes tj (1< j < n) presentant des 
scores de similarity wy. 

Le module de la production du dictionnaire de concepts regoit en 
15 entree Pensemble P des termes de la base 503 et le nombre maximum N 
de concepts souhaite est fixe par Putilisateur. Chaque concept q est prevu 
pour regrouper tous les termes voisins du point de vue de leurs 
caracteristiques. 

Pour produire le dictionnaire de concepts, on commence par 
20 calculer la matrice de distance Tentre les termes de la base 503, cette 
matrice est utilisee pour creer une partition dont le cardinal est egal au 
nombre N de concepts souhaite. 

La creation du dictionnaire de concepts s'effectue en deux phases : 
Decomposition de Pen N parties P = P% U Pi ... U 
25 Processus d'optimisation de la partition qui decompose Pen W classes 
P- Cx U Ci ... U O/avec M est inferieur ou egal a P. 

Le processus d'optimisation a pour but de reduire I'erreur de la 
repartition de P en N parties {P u Pi, P/v} ou chaque partie P, est 
representee par le terme t, qui sera pris comme concept, I'erreur commise 
30 est alors egale a I'expression suivante : 

e=X^i ' e u " X^vi est I'erreur commise lorsqu'on remplace les 

termes £de /^ par 4 

On peut decomposer P en N parties de maniere a repartir les 
termes de telle fagon que les termes les plus eloignes se trouvent dans 
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des parties distinctes et les termes proches se trouvent dans la meme 
partie. 

On decrira d'abord I'etape 1 de decomposition de I'ensemble de 
termes P en deux parties Pi et P2 : 
5 (a) On determine les deux termes les plus eloignes # et tj de P 
correspondant a la plus grande distance Djj de la matrice T. 
(b) Pour chaque t k de P, & est affecte a P s si la distance Dw est plus petite 
que la distance Dkj et a P2 sinon. 

On itere I'etape 1 jusqu'a I'obtention du nombre de parties 
10 souhaite. A chaque iteration on applique les etapes (a) et (b) sur les 
termes de I'ensemble PI et de I'ensemble P2. 

On decrira maintenant une phase d'optimisation. 
Le processus d'optimisation a pour point de depart les N parties 
disjointes de P {Pi, P2, Pn} ainsi que les N termes {ti, t2, t N } qui 
15 les represented et il est utilise afin de reduire I'erreur de decomposition 
de P en {Pi, P 2 , Pn} parties. 

On commence par calculer les centres de gravites Ci des Pi. Ensuite 
on calcule I'erreur ec,. = £^ 2 ('«>',) °l u ' on compare a ec. et on remplace ti 

par Ci si ec i est inferieur a et. . Puis, apres avoir calcule la nouvelle matrice 

20 T et si la convergence n'est pas atteinte , on procede a une 

decomposition. La condition d'arret est definie par ^£*Zl£ml < seu u qU i 

ec t 

est de I'ordre de 10" 3 - ec t etant I'erreur commise a I'instant t qui 

represente I'iteration. 

On presente ci-dessous une matrice T de distances entre les 
25 termes, ou designe la distance entre le terme tj et le terme tj. 
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La Figure 13 illustre, dans le cas de documents multimedias de 
contenus divers, un exemple de structu ration du dictionnaire de concept 
505. 

5 Afin de faciliter la navigation a Pinterieur du dictionnaire 505 et de 

determiner rapidement lors d f une phase d'identification le concept le plus 
proche d'un terme donne, le dictionnaire 505 est analyse et une carte de 
navigation 509 a Pinterieur du dictionnaire est etablie. 

La production de la carte de navigation 509 s'effectue de fagon 
10 iterative. A chaque iteration, on commence par scinder Pensemble de 
concepts en deux sous-ensembles, puis a chaque iteration on selectionne 
un sous-ensemble jusqu'a Pobtention du nombre de groupes souhaite ou 
bien jusqu'a ce que le critere d'arret soit satisfait. Ce critere d'arret peut 
etre par exemple que les sous-ensembles obtenus sont tous homogenes 
15 avec un ecart-type faible par exemple. Le resultat final est un arbre 
binaire ou les feuilles contiennent les concepts du dictionnaire et les 
noeuds de Parbre contiennent les informations necessaires a la scrutation 
de Parbre lors de la phase d'identification d'un document. 

On decrira ci-dessous un exemple de module 506 de repartition 
20 d'un ensemble de concepts. 

L'ensemble de concepts C est represents sous la forme d'une 
matrice M = [c 15 c 2 ,...,c n ]g Si p * N , avec c. G9t p , ou c f represente un 

concept de p valeurs. Differentes methodes sont possibles pour assurer 
une repartition axiale. Dans ce cas, on commence par calculer le centre de 
25 gravite C ainsi que I'axe utilise pour decomposer Tensemble en deux sous- 
ensembles. 

Les etapes de traitement sont les suivantes : 

Rape 1 : on calcule un representant de la matrice M tel que le centroTde 
30 w de la matrice M: w = — Y c { (13) 



WO 2005/064885 



27 



PCT/FR2003/003502 



Etape 2 : on calcule la matrice de covariance M entre les elements de la 
matrice M et le representant de la matrice M avec, dans le cas partlculier 
ci-dessus M =M -we, ou e = [l,l,l,...,l] (14) 

5 Etape 3 : on calcule un axe de projection des elements de la matrice M, 
par exemple le vecteur propre U associe a la plus grande valeur propre de 
la matrice de covariance. 

Etape 4: on calcule la valeur pi = u T (c t -w) et on decompose 1'ensemble 
10 de concepts C en deux sous-ensembles CI et C2 de la maniere suivante : 



f 



c t e CI si pi<0 
c, e C2 si pi>0 



15 Les informations stockees dans le nceud associe a C sont {u, w, | pi |, p2} 
avec pi est le maximum de tous les pi<0 et p2 est le minimum de tous 

les pi>0. 

L'ensemble {u, w, |pl|, p2} constitue les indicateurs de navigation dans 
le dictionnaire de concept. En effet pour determiner, lors de la phase 
20 d'identification par exemple, le concept le plus proche d'un terme ti, on 
calcule la valeur pti = w r (f, - w) puis on selectionne le nceud associe a CI 

si jpti\ - \plj < \\pti\ - p2\ et on selectionne le nceud C2 si non. On itere le 

processus jusqu'a ce que Ton ait atteint une des feuilles de Tarbre. 

Un module detecteur de singularite 508 peut etre associe au 
25 module 506 de repartition des concepts. 

Ce detecteur de singularite permet de selectionner l'ensemble Ci a 
decomposer. Une des methodes possibles consiste a selectionner 
l'ensemble le moins compact. 

Les Figures 14 et 15 illustrent I'indexation d'un document ou d'une 
30 base de documents et la construction d'une base d'empreintes 510. 

La base d'empreinte 510 est constituee de l'ensemble des concepts 
representant les termes des documents a proteger. A chaque concept Ci 
de la base d'empreinte 510 est associee une empreinte 511, 512, 513 
constituee par un ensemble d'informations telles que le nombre de termes 
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dans les documents ou le concept est present, et pour chacun de ces 
documents on enregistre une empreinte 511a, 511b, 511c comprenant 
Padresse IndiceDoc du document, le nombre de termes, le nombre 
d'occurrences du concept (frequence), le score, ainsi que les concepts qui 
5 lui sont voisins dans le document. Le score est une valeur moyenne des 
mesures de similarite entre le concept et les termes du document qui sont 
les plus proches du concept. L'adresse IndiceDoc d'un document donne 
est stockee dans une base 514 des adresses des documents proteges. 

Le processus 520 de generation des empreintes ou signatures de 
10 documents a indexer est illustre sur la Figure 15. 

Lors de Penregistrement d'un document IndiceDoc, on extrait les 
termes pertinents du document (etape 521) et on prend en compte le 
dictionnaire des concepts (etape 522). Chacun des termes tj du document 
IndiceDoc est projete dans Pespace du dictionnaire de concepts afin de 
15 determiner le concept q representant le terme tj (etape 523). 

On met ensuite a jour Pempreinte du concept q (etape 524). Cette 
mise a jour s'effectue selon que le concept a deja ete rencontre, c'est-a- 
dire est present dans les documents qui sont deja enregistres ou non. 

Si le concept q n'est pas encore present dans la base, on cree une 
20 nouvelle entree dans la base (une entree dans la base correspond a un 
objet dont les elements sont des objets contenant la signature du concept 
dans les documents ou ce concept est present). On initialise Pentree creee 
avec la signature du concept. La signature d'un concept dans un 
document IndiceDoc est materialisee principalement par les informations 
25 suivantes : IndiceDoc, NbTermes, Frequence, Concepts Voisins et score. 

Si le concept q existe dans la base, on ajoute a Pentree associee au 
concept sa signature dans le document IndiceDoc qui est composee de 
(IndiceDoc, NbTermes, Frequence, Concepts Voisins et score). 

Lorsque la base d'empreintes est construite (etape 525), on 
30 procede a Penregistrement de la base d'empreintes (etape 526). 

La Figure 16 illustre un processus d'identification d'un document qui 
est implements sur une plate-forme 530 de recherche en ligne. 

^identification d'un document a pour objectif de determiner si un 
document pose comme question est la reutilisation d'un document de la 
35 base. Elle est basee sur la mesure de similarite entre documents. Le but 
est d f identifier les documents contenant des elements proteges. La reprise 
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peut etre totale ou partielle. Dans ce dernier cas, Pelement copie a subi 
des modifications telles que : suppression de phrases dans un texte, 
suppression de motif dans une image, suppression de plan ou de 
sequence dans un document video,.. . changement d f ordre des termes ou 
5 substitution de termes par d'autres termes dans un texte. 

Apres presentation d'un document a identifier (etape 531), on 
procede a ('extraction des termes de ce document (etape 532). 

En liaison avec une base d'empreintes (etape 525), on met en 
correspondance les concepts calcules a partir des termes extraits de la 
10 question, avec les concepts de base (etape 533), afin d'etablir une liste de 
documents ayant des contenus similaires aux contenus du document 
question. 

Le processus d'etablissement de la liste est le suivant : 
On note pdj : le degre de ressemblance du document dj au 
15 document question, avec 1 < j < N , N est le nombre de documents de la 

base de reference 

On initialise a zero tous les pdj 

Pour chaque terme ti de la question fourni a I'etape 731 (Figure 17) 
on determine le concept Ci qui le represente (etape 732). 
20 Pour chaque document dj ou le concept est present on met a jour 

son p^ de la maniere suivante : 

pdj =pdj +f(frequence, score), plusieurs fonctions f peuvent etre utilisees 
par exemple f(frequence, score) = frequence x score , frequence designe le 
nombre d'occurrences du concept Ci dans le document dj et score designe 
25 la moyenne des scores de ressemblance des termes du document dj avec 
le concept Cj. 

On ordonne les pdj et on conserve ceux qui sont superieurs a un 
seuil donne (etape 733). On procede ensuite a une confirmation et une 
validation des reponse (etape 534). 
30 Confirmation des reponses : la liste des reponses est filtree afin de 

n'en garder que les reponses les plus pertinentes. Le filtrage utilise est 
base sur la correlation entre les termes de la question et de chacune des 
reponses. 

Validation: elle permet de ne conserver que les reponses ou il y a 
35 une grande certitude de reprise de contenu. Dans cette etape les reponses 
sont filtrees en tenant compte des proprietes algebriques et topologiques 
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des concepts a I'interieur d'un document : on exige que le voisinage dans 
le document question soit respecte dans les documents reponses, c'est a 
dire que deux concepts voisins dans le document question doivent etre 
voisins dans le document reponse. 
5 On fournit alors la liste des documents reponses (etape 535). 

On considerera maintenant plus particulierement le cas de 
documents multimedias contenant des images. 

On decrira en particulier pour la construction de la base 
d'empreintes qui servira d f outil pour ('identification d'un document, des 

10 procedes rapides et efficaces d'identification d'images qui tiennent compte 
de toutes les informations pertinentes contenues dans les images allant de 
la caracterisation des structures ou objets qui la composent, a celle des 
zones texturees et a la couleur de fond. Les objets de Pimage sont 
identifies par la production d'une table resumant differentes statistiques 

15 faites sur des informations des zones frontieres des objets ainsi que des 
informations sur les voisinages de ces zones frontieres. La caracterisation 
des zones texturees peut etre effectuee a Paide d'une description tres fine 
a la fois spatiale et spectrale de la texture suivant trois caracteristiques 
fondamentales qui sont sa periodicite, son orientation globale et Paspect 

20 aleatoire de son motif. La texture est ici assimilee a une realisation de 
processus aleatoire bidimensionnel. La caracterisation de la couleur est un 
volet important de la methode. Elle peut etre utilisee comme un premier 
tri des reponses similaires basees sur la couleur, ou alors une derniere 
decision faite pour affiner la recherche. 

25 Dans le premier volet de la phase de construction d'empreintes, on 

prend en compte des informations classifies sous forme de composants 
appartenant a deux grandes categories : 

- les composants dits structured qui decrivent la perception par 
Poeil d f un objet pouvant etre isole ou d'un ensemble d'objets disposes 

30 selon un arrangement spatial, 

- les composants dits texturaux qui sont le complement des 
composants structured et qui traduisent la regularity ou I'homogeneite des 
motifs de texture. 

Comme indique plus haut, lors de la phase de construction 
35 d'empreintes, chaque document de la base de documents est analyse afin 
d'en extraire les informations pertinentes. Ces informations seront ensuite 



WO 2005/064885 



31 



PCT/FR2003/003502 



repertories et analysees. Cette analyse se fait suivant un enchamement 
de procedures qui se resume en trois etapes : 

» Extraction pour chaque document de caracteristiques predefines 
et stockage de ces informations dans un vecteur appele terme. 
5 - Regroupement dans un concept de tous les termes "voisins" du 

point de vue de leurs caracteristiques, ce qui permet de rendre la 
recherche plus concise. 

- Construction d'une empreinte qui caracterise ce document par un 
nombre reduit d'entites. Chaque document est ainsi associe a une 
10 empreinte qui lui est propre. 

Lors d'une phase ulterieure de recherche, suite a une requete 
formulee par un utilisateur, par exemple Identification d'une image 
question, on recherche tous les documents multimedias similaires ou 
repondant a cette requete. Pour ce faire, comme indique plus haut, on 
15 calcule les termes du document question et on les compare aux concepts 
de la base afin de deduire le ou les documents de la base qui sont 
similaires au document question. 

On decrira ci-dessous de fagon plus detaillee la phase de 
construction des termes d'une image. 
20 La phase de construction des termes d'une image met en oeuvre 

utilement la caracterisation des supports structured de I'image. Les 
supports structured sont les elements qui composent la scene de I'image. 
Les plus significatifs sont ceux qui delimitent les objets de la scene car ce 
sont eux qui caracterisent les differentes formes qui sont pergues 
25 lorsqu'on observe une quelconque image. 

Cette etape concerne ('extraction de ces supports structured. Elle 
consiste en un demantelement des zones frontieres des objets de I'image, 
qui sont caracterisees par des endroits entre deux zones ou de fortes 
variations d'intensite sont observees. Ce demantelement s'opere par un 

30 procede qui consiste a repartir ces zones frontieres parmi differentes 
« classes » selon I'orientation locale du gradient de Timage (orientation de 
la variation locale d'intensite). On obtient ainsi une multitude de petits 
elements denommes les « Elements de Support structured » (ESS). 
Chaque ESS appartenant effectivement a un contour d'une scene est 

35 caracterise par une similarite au niveau de I'orientation locale de son 
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gradient. Ceci est une premiere etape qui vise a repertorier tous les 
elements de Support structured de I'image. 

La demarche suivante s'opere desormais a partir de ces ESS, a 
savoir la construction de termes decrivant les proprietes locales et 
5 globales des ESS. 

Sont considerees comme proprietes locales les informations 
extraites de chaque support. Deux types de supports peuvent etre 
distingues : les elements de droites rectilignes (EDR) et les elements 
d'arcs de courbes (EAC). 

10 Les elements de droites rectilignes EDR sont caracterises par les 

proprietes locales qui sont : 

■ La dimension (longueur, largeur) 

■ Direction principale (pente) 

■ Proprietes statistiques des pixels constituant le support 
15 (valeur moyenne d'energie, les moments) 

■ Informations du voisinage ( Transformee de Fourier 
locale) 

Les elements d'arcs de courbes EAC quant a eux sont caracterises 
de la tneme fagon que precedemment, en plus de la courbure des arcs. 

20 Les proprietes globales englobent les statistiques telles que le 

nombre de chaque type de supports et leurs dispositions spatiales 
(associations geometriques entre les supports : connexites, gauche, droite, 
milieux...). 

En resume, pour une image donnee, les informations pertinentes 
25 extraites des objets la constituant sont regroupees sur le tableau 1. 



WO 2005/064885 



33 



PCT/FR2003/003502 



Supports structuraux des 
objets d'une image 


Type 


ESS 


EDR 


EAC 


Proprietes 
globales 


Nb total 


n 




no 


Nb longs (> seuil) 


nl 


nil 


n2l 


Nb courts ( < seuil) 


nc 


njc 


n2C 


Nb de supports 
longs a une 
connexion gauche 
ou droite 




njlgdx 


n2lgdx 


Nb d'une 
connexion milieu 


- 


nilgdx 


n2lgdx 


Nb de supports 
longs paralleles 




ft 1 Till 




Proprietes 
locales 


Luminance 
(>seuil) 


- 






Luminance 
( <seuil) 








Pente 








Courbure 








Caracterisation du 
voisinage des 
supports 









Tableau 1 



La phase de construction des termes d'une image met en ceuvre 
egalement la caracterisation des informations texturales pertinentes de 
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1'image. Les informations venant de la texture de I'image sont divisees 
selon trois aspects visuels de rimage : 

■ I'aspect aleatdire (comme une image de sable fin, ou d'herbe) 
ou aucun arrangement particulier ne peut etre decele, 

5 ■ I'aspect periodique (comme un pull en jacquard) ou une 

repetition de motifs (pixel ou groupement de pixels) dominants 
est observee, 

■ et enfin I'aspect directionnel ou les motifs tendent globalement 
a s'orienter vers une ou des directions privilegiees. 

10 Ces informations sont obtenues en approchant rimage par des 

modeles ou representations parametriques. Chaque aspect est pris en 
compte par ses representations spatiale et spectrale qui constituent les 
informations pertinentes de cette partie de I'image. La periodicite et 
I'orientation sont caracterisees par les supports spectraux tandis que 

15 I'aspect aleatoire se traduit par I'estimation des parametres d'un modele 
autoregressif bidimensionneL 

Une fois toutes les informations pertinentes extraites, on peut 
proceder a la structuration des termes des textures. 
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Supports spectraux et 
parametres autoregressifs de la 
texture d'une image 




Composante 

TmnInfliAllft 

peno uicjue 


Nb total 

d'elements 

periodiques 


np 




Frequences 


Couple [fo p , v p ) 0<p<np 




Amplitudes 


Couple (c p ,D p ) 0< p<np 


Composante 
directionnelle 


Nb total 

d'elements 

directionnels 


nd 




Orientations 


Couple (pc^fii), QKi^nd 




Frequences 


v., Q<i<nd 


Composantes 
aleatoires 


Ecart-type du bruit 


a 




Parametres 
autoregressifs 


Kyi &jfeS MJt 



Tableau 2 



La phase de construction des termes d'une image peut enfin mettre 
egalement en oeuvre la caracterisation de la couleur de Pimage. 
5 La couleur est souvent representee par les histogrammes de 

couleur, ces derniers sont invariants a la rotation et robustes contre 
Pocclusion et les changements de points de vue de la camera. 

La quantification des couleurs peut se faire dans I'espace RVB 
(Rouge, Vert, Bleu), TSV (Teinte Saturation Valeur), ou Tespace LUV mais 
10 la methode d'indexation par les histogrammes de couleurs a prouve ses 
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limites car elle donne une information globale de I'image, et lors de 
I'indexation on peut trouver des images ayant le meme histogramme de 
couleur, mais qui sont completement differentes. 

Beaucoup d'auteurs proposent des histogrammes de couleurs en 
5 integrant I'information spatiale. Ceci consiste par exemple a distinguer les 
pixels coherents des pixels incoherents, un pixel est coherent sll 
appartient a une region assez large regroupant des pixels identiques, il est 
classe incoherent s'il fait partie d'une region de taille reduite. 

On decrira plus loin un procede de caracterisation de la distribution 
10 spatiale des constituants de I'image (par exemple la couleur) qui est moins 
couteux en temps de calcul que les methodes citees ci dessus, et est 
robuste aux rotations et a la translation. 

Les differentes caracteristiques extraites des elements de support 
structured, les parametres des composants periodique, directionnel et 
15 aleatoire du champ de texture ainsi que les parametres de la distribution 
spatiale des constituants de I'image constituent les termes pouvant servir 
a la description du contenu d'un document. Ces termes sont regroupes 
dans des concepts afm de reduire les informations utiles document. 

Les occurrences de ces concepts ainsi que leurs positions et leurs 
20 frequences constituent ce qu'on appelle Vempreinte d'un document. Ces 
empreintes vont ensuite servir de trait d'union entre un document 
question et les documents d'une base, lors d'une phase de recherche de 
document. 

Une image ne contient pas forcement tous les elements et les 
25 caracteristiques decrits plus haut. Par consequent, identifier une image 
commence par la detection de la presence de ses elements constituants. 

Selon un exemple de processus d'extraction des termes d'une 
image, une premiere etape consiste en la caracterisation des objets de 
I'image en supports structured, et peut le cas echeant §tre precedee d'un 
30 test de detection d'elements structured permettant d'omettre cette etape 
dans les cas ou les elements structured sont absents. 

Une etape suivante consiste en un test pour determiner s'il existe 
un fond texture. Si c'est le cas, on passe a une etape de caracterisation du 
fond texture en supports spectraux et parametres auto-regresssifs, puis a 
35 une etape de caracterisation de la couleur de fond. 

S'il n'existe pas de fond structure, on passe directement a I'etape 
de caracterisation de la couleur de fond. 
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Enfin, on procede au stockage des termes et a la construction 
d'empreintes. 

On reviendra maintenant de fagon plus detaillee sur la 
caracterisation des elements de support structured d'une image. 

5 Le principe de base de cette caracterisation consiste en un 

demantelement des zones frontieres des objets de I'image en multitudes 
de petits elements de base appeles elements de supports significatifs 
(ESS) qui vehiculent les informations utiles des zones frontieres qui sont 
composees de bandes Iineaires de taille variable, ou des coudes de 
10 differentes courbures. Des statistiques faites sur ces objets seront alors 
analysees et utilisees pour construire les termes de ces supports 
structured. 

Afin de decrire plus rigoureusement les principaux procedes 
composant cette approche, on notera une image numerisee par 
15 \'ensemb\e{y(ij),(hj)e /x/}, ou let J sont respectivement le nombre de 

lignes et de colonnes de I'image. 

A partir des images gradient vertical {g v (i, j\(i 9 j)e Jx/}et 

horizontal {g h (ij),(i,j)e Ixj} prealablement calculees, cette approche 

consiste a partitionner I'image selon I'orientation locale de son gradient en 
20 un nombre fini de classes equidistantes. L'image contenant I'orientation du 
gradient est definie par la formule : 



0(i 9 j) = arctan 



8 h 



(uj) 



(1) 



La partition n'est autre qu'une subdivision angulaire du plan 2D (de 
0° a 360°) par un pas de discretisation bien defini. Le fait d'utiliser 

25 I'orientation locale du gradient comme critere de decomposition des zones 
frontieres permet un meilleur groupement des pixels faisant partie d'une 
meme zone frontiere. Afin de resoudre le probleme des points frontieres 
qui peuvent §tre partages entre deux classes juxtaposees, une deuxieme 
partition avec le meme nombre de c/asses que precedemment, mais 

30 decalees de V2 classe est utilisee. A partir des classes issues des deux 
partitions, une simple procedure consiste a choisir celles qui totalisent le 
plus grand nombre de pixels. En effet, chaque pixel appartient a deux 
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cfasses chacune issue des deux partitions. Sachant que chaque pixel est 
un element potentiel d'un eventuel ESS, il vote alors pour la classe qui 
contient le plus de pixels parmi les deux. II s'agit d'une region oil la 
probability de trouver un ESS de taille plus elevee est la plus forte 
5 possible. A la suite des votes, on retient uniquement les classes qui 
totalisent plus de 50% des suffrages. Ce sont les regions de support 
susceptibles de contenir les ESS. 

A partir de ces regions de support, on determine les ESS, on les 
repertorie selon certains criteres qui peuvent §tre : 
10 ■ La longueur (on determine pour cela un seuil lo et on 

comptabilise les ESSinferieurs et superieurs a ce seuil) 

■ L'intensite definie par la moyenne du module du gradient des 
pixels composant chaque ESS. ( un seuil note Io est alors defini, 
on repertorie ceux qui sont inferieurs et superieurs a ce seuil). 

15 ■ Le contraste defini par la difference entre le maximum et le 

minimum des pixels. 

A cette etape du precede, tous les elements dits structurels sont 
connus et repertories conformement aux types de supports structurels 
pre-identifies. lis peuvent etre extraits de I'image d'origine pour laisser 
20 place a la caracterisation du champ de textures. 

En I'absence d'elements structurels, on suppose que I'image est 
texturee avec des motifs plus ou moins reguliers et on procede a une 
caracterisation du champ de la texture. Pour cela, on peut proceder a une 
decomposition de I'image en trois composantes qui sont : 
25 ■ Une composante texturale contenant les informations 

anarchiques ou aleatoires (comme une image de sable fin, ou 
d'herbe) ou aucun arrangement particulier ne peut §tre decele, 

■ Une composante periodique (comme un pull en jacquard) ou 
une repetition de motifs dominants est observee, 

30 ■ et enfin une composante directionnelle ou les motifs tendent 

globalement vers une ou des directions privilegiees. 

L'objectif etant de caracteriser parfaitement la texture de I'image a 
partir d'un ensemble de parametres, ces trois composantes sont 
representees par des modeles parametriques. 
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Ainsi, la texture de I'image 15 reguliere et homogene notee 
{y(fj)>(ij)elxJ} est decomposee en trois composantes 16, 17, 18 

comme illustre sur la Figure 10, conformement a la relation suivante : 

5 M> j)}= M'. J)h M 7)3+ frfr J)} (16) 

Ou $v(ij)} est la composante purement aleatoire 16, {h(i 9 j)} est la 
composante harmonique 17 et {e(i 9 j)} la composante directionnelle 18. 
(.'estimation des parametres de ces trois composantes 16, 17, 18 termine 
10 cette etape d'extraction d'informations d'un document. Des methodes 
d'estimation sont decrites dans les paragraphes suivants. 

On decrira d f abord un exemple de precede de detection et 
caracterisation de la composante directionnelle de I'image. 

II s'agit dans un premier temps d'appliquer un modele parametrique 
15 a la composante directionnelle {e(ij)}. Elle est constitute d'une somme 

denombrable d'elements directionnels ou chacun est associe a un couple 
d'entiers (a,p) definissant une orientation d'angle 9 tel que 0 = tan" 1 
Autrement dit, e(ij) est defini par e (ij)= J^e M) (ij) ou chaque e {a ^(ij) 

est defini par : 

Ne 

W» fi-zXJ? (**« - JP)*<x»(?* j2** to + ja D 

20 ** 01 + P (17) 

+ t a k ' p (ice - jp)xsm(2K-^^(ip + joe))] 

OU 

• /Veest le nombre d'elements directionnels associes a (a,p), 

• v k est la frequence du A^ me element, 

• {s k (ia - jf})} et {? t (ia - jr'jS)} sont les amplitudes. 

25 La composante directionnelle fe(i, j)} est ainsi parfaitement definie 

par la connaissance des parametres contenus dans le vecteur £suivant : 

Pour estimer ces parametres, on utilise le fait que la composante 
directionnelle d'une image est representee dans le domaine spectral par 
30 un ensemble de droites de pentes orthogonales a celles definies par les 
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couples d'entiers (a,,/*,) du modele qui seront notes ) x . Ces droites 
peuvent etre decomposees en un sous ensemble de droites de meme 
pente associe chacun a un element directionnel. 

Pour calculer les elements du vecteur £> on peut adopter une 
5 approche fondee sur la projection de I'image suivant differentes directions. 
Le procede consiste dans un premier temps a s'assurer de la presence de 
la composante directionnelle avant d'estimer ses parametres. 

La detection de la composante directionnelle de I'image est basee 
sur la connaissance des proprietes spectrales de celle-ci. Si on assimile le 
10 spectre de I'image a une image 3D (X,Y, Z), ou (X,Y) represented les 
coordonnees des pixels et Z I'amplitude, les droites qu'on cherche a 
detecter sont representees par un ensemble de pics concentres le long de 
droites dont les pentes sont definies par les couples (a l9 p t ) recherches. 

Pour determiner la presence de ces droites, il suffit de comptabiliser les 
15 pics predominants. Le nombre de ces pics renseigne sur la presence du 
non de supports directionnels ou harmoniques. 

On decrira maintenant un exemple de procede de caracterisation de 
la composante directionnelle. Pour cela, on procede au calcul des couples 
de direction (a,,/*,) et a la determination du nombre d'elements 

20 directionnels. 

On effectue d'abord le calcul de la transformee de Fourier Discrete 
(TFD) de I'image suivi d'une estimation des droites de pente rationnelle 
observees dans Timage transformee ^(ij). 

Pour cela, on definit un ensemble de projections qui discretise le 
25 domaine frequentiel en differents angles de projection e k9 k fini. Cet 

ensemble de projection peut etre obtenu de differentes manieres. On peut 
par exemple chercher tous couples d'entiers premiers entre eux (a k9 p k ) 

definissant un angle 0 k9 tel que 0 k =tan" i -^-ou 0<e k <— . Un ordre rte\ 
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que 0<,a k ,p k <r permet de controler le nombre de projections. Les 
proprieties de symetrie peuvent ensuite etre utilisees pour obtenir tous les 
couples jusqu'a 2k . 

Des projections du module de la TFD de I'image sont effectuees 
5 suivant les 0 k . Chaque projection engendre un vecteur de dimension 1, 

V {aitPt) , note V k pour simplifier la notation, qui contient les informations 
directionnelles recherchees. 

Chaque projection l^est donnee par la formule : 

^(/0=£^(*' +T &J +m *)' 0 < i+tp k < I -1,0 < j+Ta k < J -1 (19) 

10 avec n = -i*fi k +j*a k et 0<|w|<i\^ etN k =|a fc |(7 T -l)+|j8 fc |(L-l)+l / 
ou r*L est la taille de I'image. *F(i,j) est le module de transformee de 
Fourier de I'image a caracteriser. 

On selectionne pour chaque Vk les elements de fortes energies ainsi 
que leurs positions spatiales. Ces elements de forte energie sont ceux qui 
15 presentent une valeur maximale par rapport a un seuil calcule selon la 
taille de I'image. 

A cette etape de calcul, le nombre de droites est connu. On en 
deduit le nombre de composantes directionnelles Ne en utilisant les 
proprietes spectrales simples de la composante directionnelle d'une image 
20 texturee. Ces proprietes sont : 

1. Les droites observees dans le domaine spectral d'une 
composante directionnelle sont symetriques par rapport a 
I'origine. On peut par consequent reduire le domaine 
d'investigation sur une moitie seulement du domaine 

25 considere. 

2. Les maxima retenus dans le vecteur sont candidats a 
representer des droites appartenant a des elements 
directionnels. A partir de la connaissance des positions 
respectives des droites sur le module de transformee de 

30 Fourier discrete TFD, on en deduit le nombre exact 

d'elements directionnels. La position du maximum droite 
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correspond a I'argument du maximum du vecteur Vk, les 
autres droites du meme element sont situees tous les 
min{L,T}. 

Apres traitement des vecteurs V k et production des couples de 
5 direction (pc k ,0 k ) on obtient les nombres de droites associes a chaque 

couple, 

Ainsi on peut compter le nombre total d'elements directionnels en 
utilisant les deux proprietes sus-mentionnees et on identifie les couples 
d'entiers (pc k9 0 k ) associes a ces composantes qui sont les directions 

10 orthogonales a celles qui ont ete retenues. 

Pour tous ces couples ipc k 9 0 k ) I'estimation des frequences de 

chaque element detecte est immediate. En effet, si Ton considere 
uniquement les points de Timage d'origine le long de la droite d'equation 
id k - j0 k = c , c est la position du maximum dans Vk r et ces points 

15 constituent un signal monodimensionnel (1-D) harmonique d'amplitude 
constante et qui a pour frequence $f**K II suffit alors d'estimer la 

frequence de ce signal 1-D par un procede classique (localisation de la 
valeur maximale sur la TFD 1-D de ce nouveau signal). 

En resume, on peut mettre en oeuvre le procede comportant les 
20 etapes suivantes : 

On determine le maximum de chaque projection, 

Les maximums sont filtres afin de ne garder que ceux superieurs a 
un seuil. 

■ Pour chaque maximum m /f correspondant a un couple 

25 fe.A) 

■ on determine le nombre de droites associees a ce couple 
d'apres les proprietes decrites plus haut. 

■ on calcule la frequence associee a {pc k , 0 k )qu\ correspond 

a Hntersection de la droite maximal (correspondant au 
30 maximum de la projection retenue) avec Taxe horizontal. 
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10 



On decrira maintenant le calcul des amplitudes {yf >/J) (o} et & a ' p \t)} 
qui sont les autres parametres contenus dans le vecteur E mentionne plus 
haut. 

Connaissant la direction {d k ,p k ) et la frequence 14, on peut 
determiner les amplitudes s k a - p) (c) et fi 0,/,) (c), pour cverifiant la formule 
id k - j$ k =c, en utilisant un procede de demodulation. En effet, s k a ' p) (c) 

est egal a la moyenne des pixels le long de la droite d'equation 
id k -j0 k =c de la nouvelle image obtenue en multipliant y(i,j) par 



cos 



. Ceci est traduit par I ^equation 



^>(c) = -L £?(U)cos 



V 



{0 k +Jd k ) 



(20) 



ou /l&n'est autre que le nombre d'elements de ce nouveau signal. 
De la meme maniere, on obtient i^ a ' p) ic) en appliquant I'equation : 



k0 k + jd k ) 



(21) 



15 Le procede decrit ci-dessus peut etre resume par les etapes 

suivantes : 

Pour tout element directionnel ipt k ,0 k ) faire 

Pour toute droite (d) calculer 

1. la moyenne des points (i,j) ponderee par le 



cos 



(if} k +ja k ) 



Cette moyenne correspond a 



I'estimation du I'amplitude 3ff\d) 
2. la moyenne des points (i,j) ponderee par le 



sin 



( ^M) 



. Cette moyenne correspond a 



I'estimation du I'amplitude ij* p Hd) 
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Le tableau 3 ci-dessous recapitule les etapes principales du precede 
de projection. 

Etape 1. Calculer I'ensemble de couples de projection (a k ,p k )e P r 

Etape 2. Calculer le module de la TFD de llmage y(i,j) : 
V(a),v)=\TFD(y(ij)] 

Etape 3-Pour tout (a k ,p k )e P r , 

calculer le vecteur Vk : la projection de *f(«,v) suivant (cc k ,p k ) 
d'apres la formule (19) 

Etape 4- Detection de droites : 

Pour tout (pc k ,p k )e P r , 

• determiner : M k = max{v t (j)}, 

j 

• calculer nk.-, le nombre de pixels de valeurs significatives 
rencontres le long de la projection 

• sauvegarder n k et j m I'indice du maximum dans V k . 

• selectionner les directions qui justifient le critere 

M k 

— >s e 

ou s e est un seuil a definir, dependant de la taille de llmage, 

Les directions retenues sont considerees comme celles de droites 
recherchees. 

Etape 5- Sauvegarder les couples (fi k ,0 k ) recherches qui sont les 
orthogonaux des couples (a k ,p k ) retenus dans I'etape 4. 

Tableau 3 



5 
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On decrira ci-dessous la detection et la caracterisation des 
Informations texturales periodiques d'une image, qui sont contenues dans 
la composante harmonique {&(/,./)}. Cette composante peut etre 

representee par une somme finie de sinusoTdes 2-D : 

5 h{i, j')=X C p cos2jv(i(O p + jv p )+D p sin27v(ia) p + jv p ), (22) 

Oil 

• c p et d p sont les amplitudes. 

• (a> p ,v p ) est la pf ime frequence spatiale. 

Les informations que Ton cherche a determiner sont les elements 
10 du vecteur : 

H = \pte p ,D p ,<D p ,v P Y^) (23) 

Pour cela on commence par detecter la presence de cette 
composante periodique dans llmage module de Fourier et on estime 
ensuite ses parametres. 

15 La detection de la composante periodique consiste a determiner la 

presence de pics isoles sur llmage module de la TFD. On opere de la 
meme maniere que dans le cas de la determination de la composante 
directionnelle. D'apres le procede decrit dans le tableau 1, si la valeur n k 
obtenue dans la phase 4 du procede decrit dans le tableau 1 est inferieure 

20 a un seuil, alors on est en presence de pics isoles qui caracterisent la 
presence de composante harmonique plutot que de pics formant une 
droite continue. 

La caracterisation de la composante periodique revient a localiser 
les pics isoles sur llmage module de la TFD. 
25 Ces frequences spatiales (db p ,^ p ) correspondent a la position de ces 

pics : 

(<& p ,i? p )= argmaxT(o),v) (24) 

(o>,v) 
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Pour le calcul des amplitudes {f p ,b p ) r on utilise un procede de 

demodulation comme pour estimer les amplitudes de la composante 
directionnelle. 

Pour chaque element periodique de frequence (S p ,v p ), I'amplitude 

5 correspondante est identique a la moyenne des pixels de la nouvelle 
image obtenue en multipliant I'image {y(i,j)} par cos(iw p + j$ p ). Ceci est 

traduit par les formules suivantes : 

C P = t^XEX".™)^©, + (25) 

ZrfXi rt=0 m =o 

A. JS^M" 6 , + mv p ) (26) 

10 

En resume, un procede d'estimation de la composante periodique 
comprend les etapes suivantes : 

Etape 1. Localiser les pics isoles dans la deuxieme moitie de 
I'image module de Fourier et compter leur nombre 

Etape 2. Pour tout pic detecte : 

■ Calculer sa frequence a I'aide de la formule (24) 

■ Calculer son amplitude a I'aide de la formule 

■ (25 - 26) 

15 Les dernieres informations a extraire sont contenues dans la 

composante purement aleatoire {w(i,7')}. Cette composante peut etre 

representee par un modele autoregressif 2-D de support demi-plan non 
symetrique (DPNS) fini defini par I'equation aux differences suivante: 
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w(hj)=- ^,o kJ w(i-kJ-l)+u(ij) (27) 

ou ^^J^ sont les parametres a determiner pour tout f k,l) 
appartenant a 

s NtU = lk,i)/k = o,izi< m}u$c,i)/i<, k£N,-M<zi< m}. Le couple 
5 (N,M) s'appelle I'ordre du modele. 

• {"(*'»./)} est un Druit D,anc gaussien de variance finie a\. 
Les parametres du modele sont donnes par : 

W = lN,MW u ,{i ktl \ kl)eSfi J (28) 

Les methodes d'estimation des elements de W sont nombreuses 
10 comme par exemple I'algorithme de Levinson 2D ou alors les methodes 
adaptatives du type moindres carres (MCR). 

On decrira maintenant un precede de caracterisation de la couleur 
d'une image dont on veut extraire des termes tj representant des 
caracteristiques iconiques de cette image, la couleur etant un exemple 
15 particulier des ces caracteristiques iconiques qui peuvent comprendre 
d'autres caracteristiques telles que les moments algebriques ou 
geometriques, les proprietes statistiques, les proprietes spectrales des 
moments de pseudo-Zernicke. 

La methode est fondee sur la caracterisation perceptuelle de la 
20 couleur, en premier lieu on effectue une transformation des composantes 
de la couleur de fimage de I'espace RVB (Rouge, Vert, Bleu) encore 
denomme RGB vers I'espace TSV (Teinte Saturation Valeur) encore 
denomme HSV. On obtient ainsi trois composantes : Teinte, Saturation, 
Valeur. A partir de ces trois composantes on determine N couleurs ou 
25 composantes iconiques de Hmage. Chaque composante iconique Ci est 
representee par un vecteur de M valeurs . Ces valeurs represented la 
distribution angulaire et annulaire des points representant chaque 
composante ainsi que le nombre de points de la composante en question. 

La methode developpee est illustree par la Figure 9 avec a titre 
30 d'exemple N =16 et M= 17 . 
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Dans une premiere etape principale 610, a partir d'une image 611 
de I'espace RGB, on precede a une transformation de I'image 611 de 
I'espace (R,G,B) a I'espace HSV (etape 612) pour obtenir une image dans 
I'espace HSV. 

5 Le modele HSV peut etre defini de la facon suivante. 

Teinte (H) : varie de [0 360] , et chaque angle represente une 

teinte. 

Saturation (S) : varie de [0 1], elle mesure la purete des couleurs, 
10 et permet de distinguer les couleurs "vives", "pastels", ou "delavees 

Valeur (V) : Elle prend des valeurs de [0 1], elle indique si une 
couleur est claire ou sombre et dans quelle mesure elle se 
rapproche du blanc ou du noir. 

15 

Le modele HSV est une transformation non lineaire du modele de 
I'espace (R,G,B) .L'ceil humain peut distinguer 128 teintes, 130 
saturations , et 23 ombres . 

20 Pour le Blanc l/=l et 5=0 , le noir a une valeur 14=0 tandis que la teinte 
Het la saturation Ssont indeterminees. 

Lorsque l/=l et 5=1 on a une couleur pure. 

25 Chaque couleur est obtenue en rajoutant du blanc ou du noir a la 

couleur pure. 

Pour avoir des couleurs plus claires on reduit 5et on garde Het V, 
par contre, pour des couleurs foncees on rajoute du noir en reduisant Vet 
on garde Het 5. 

30 Le passage de I'image couleur exprimee dans les coordonnees 

(R,G,B) en une image exprimee dans I'espace (H,S, V) (Teinte, Saturation, 
Valeur) s'effectue de la fagon suivante : 



WO 2005/064885 



49 



PCT/FR2003/003502 



Pour tout point de coordonnee et de valeur (Rk,Bk,G k ) on 
produit un point de coordonnees (i,j) et valeur (HfcSicVk) avec : 



10 



15 



V k =max(R k ,B k ,G k ) 

V fr -min( R k ,G k ,B k ) 



G * siFfcestegalSli?* 



V k -tmn{R kt G k ,B k ) 

H k = {l + B "- R k S i y k est egal a G k 

V k -mm(R k ,G k ,B k ) 

4+ R k-&k siVtestegalaBjfc 



v V k -mm(R k ,G k ,B k ) 



On procede ensuite a une partition de I'espace HSV (etape 613). 



A partir des valeurs de Teinte, Saturation, Valeur , on a defini N couleurs. 
20 Dans le cas ou N est egal a 16, on a : Noir, Blanc, Gris clair, Gris fonc<§, 

Gris moyen, Rouge, Rose, Orange, Marron, Olive, Jaune, Vert, Bleu Ciel , 

Bleu-vert, Bleu , Pourpre, Magenta. 

Pour chaque pixel on evalue a quelle couleur il appartient Ensuite 

on calcule le nombre de points de chaque couleur. 
25 Dans une deuxieme etape principale 620, on procede a une 

caracterisation des partitions obtenues lors de la premiere etape principale 

610. 

Dans cette etape 620, on cherche a caracteriser chaque partition Ci 
obtenue precedemment. Une partition est definie par sa composante 

30 iconique et par les coordonnees des pixels qui la constituent. La 
description d'une partition est fondee sur la caracterisation de la 
repartition spatiale de ces pixels (nuage de points). La methode 
commence par le calcul du centre de gravite, I 'axe principal du nuage de 
points et I'axe perpendiculaire a cet axe. Le nouveau repere est utilise 

35 comme reference dans la decomposition de la partition Ci en plusieurs 
sous-partitions qui sont representees par le pourcentage des points 
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constituant chacune des sous-partitions. Le processus de caracterisation 
d'une partition Ci est le suivant : 

- calcuier le centre de gravite et Tangle d'orientation des 
composantes Ci definissant le repere de partitionnement, 

5 - calcuier la distribution angulaire des points de la partition Ci dans 

les N directions dans le sens contraire des aiguilles d'une montre, en N 
sous-partitions definies par : 

, 0 360 2x360 ix360 (N-l)x360 ^ 
lU ' N ' N N N / 

10 - partitionner I'espaoe de I'image en carres de rayons 

concentriques, avec calcul dans chaque rayon du nombre de points 
correspondant a chaque composante iconique. 

Le vecteur caracteristique est obtenu a partir du nombre de points 
de chaque repartition de couleur Ci, du nombre de points dans les 08 
15 sous-repartitions angulaires ainsi que du nombre de points de I'image. 

Ainsi le vecteur caracteristique est represents par 17 valeurs dans 
I'exemple considered 

Sur la Figure 9, on a illustre la deuxieme etape 620 de traitement a 
partir des composantes iconiques CO a C15 en montrant pour les 

20 composants CO (module 621) et C15 (module 631) les differentes etapes 
effectuees, a savoir le partitionnement angulaire 622, 632 conduisant a un 
nombre de points dans les 8 orientations considerees (etape 623, 633) et 
le partitionnement annulaire 624, 634 conduisant a un nombre de points 
dans les 8 rayons considered (etape 625, 635), ainsi que la prise en 

25 compte du nombre de pixels de composante CO respectivement C15 dans 
I'image (etape 626, respectivement 636). 

Les etapes 623, 625, 626 conduisent a la production de 17 valeurs 
pour la composante CO (etape 627) tandis que les etapes 633, 635, 636 
conduisent a la production de 17 valeurs pour la composante C15 (etape 
30 637). 

Naturellement, le processus est analogue pour les autres 
composantes CI a C14. 
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Les Figures 10 et 11 illustrent le fait que le procede decrit ci-dessus 
est invariant a la rotation. 

Ainsi, dans I'exemple de la Figure 10, Pimage est partitionnee en 
deux sous-ensembles, Tun contenant les croix x, Pautre les ronds 0. Apres 
5 calcul du centre de gravite ainsi que de Tangle d'orientation 9, on obtient 
le repere d'orientation qui permettra d'obtenir les 04 sous-repartitions 
angulaires (0°, 90°, 180°, 270°). 

Par la suite, on effectue une repartition annulaire, on calcule le 
nombre de points dans un rayon egal a 1 puis 2. On obtient le vecteur V0 
10 caracteristique de I'image de la Figure 10 : 19 ; 6 ; 5 ; 4 ; 4 ; 8 ; 11. 

L'image de la Figure 11 est obtenue en appliquant une rotation de 
90° a l'image de la Figure 10. En appliquant le procede ci-dessus a I'image 
de la Figure 11, on obtient un vecteur VI caracterisant cette derniere qui 
montre que la rotation n'influence par le vecteur caracteristique. Cela 
15 permet de conclure que la methode est invariante a la rotation. 

Comme indique plus haut, les methodes permettant d'obtenir pour 
une image les termes representant les couleurs dominantes, les proprieties 
texturales ou les structures des zones dominantes de I'image, peuvent 
etre appliquees aussi bien sur la totalite de I'image que sur des portions 
20 de I'image. 

On decrira brievement ci-dessous des processus de segmentation 
d'un document qui permettent de produire les portions de I'image a 
caracteriser. 

Selon une premiere technique possible, on procede a une 
25 decomposition statique. L'image est decomposed en blocs avec 
recouvrement ou sans recouvrement. 

Selon une deuxieme technique possible, on procede a une 
decomposition dynamique. Dans ce cas, la decomposition de l'image en 
portions est fonction du contenu de I'image. 
30 Selon un premier exemple de technique de decomposition dynamique, les 
portions sont produites a partir des germes qui sont les points de 
singularity de l'image (les points d'inflexions). On commence par calculer 
les germes, qui sont ensuite fusionnes pour qu'il n'en reste qu'un nombre 
reduit et enfin les points de I'images sont fusionnes aux germes ayant les 
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memes proprieties visuelles (statistiques) pour produire les portions ou les 
segments de I'image a caracteriser. 

Selon une autre technique faisant appel a une segmentation 
hierarchique, les points de I'image sont fusionnes pour former les n 
5 premieres classes. Ensuite les points de chacune des classes sont 
decomposes en m classes et ainsi de suite jusqu'a atteindre le nombre de 
classes desire. Lors de la fusion, les points sont affectes a la classe la plus 
proche. Une classe est representee par le centre de gravite et/ou un 
delimiteur (boite englobante, segment, courbe, ...). 
10 On decrira maintenant les etapes principales d'un procede de 

caracterisation des formes d'une image. 

La caracterisation de la forme s'effectue en plusieurs etapes : 

Pour une suppression d'effet de zoom ou variation du aux 
mouvement des elements non rigides de I'image (mouvement des levres, 
15 des feuilles d'arbre, ...)/ on procede par une multiresolution suivie d'une 
decimation de I'image. 

Pour une reduction de I'effet de translation, I'image ou la portion de 
I'image est representee par sa Transformee de Fourier. 

Pour une reduction de I'effet de zoom, I'image est definie dans 
20 I'espace logarithmique polaire. 

On peut mettre en oeuvre les etapes suivantes : 
a/ multiresolution f = wavelet(I,n) ; ou I est I'image de depart et n est le 
nombre de decompositions 
b/ projection de I'image dans I'espace logPolaire: 
25 g(l,m) = f(i,j) avec i = l*cos(m) et j = l*sin(m) 

c/ calcul de la transformee de Fourier de g : H = FFT(g) ; 
d/ caracterisation de H : 

dl/ projection de H dans plusieurs directions (0, 45, 90 , ...) : le resultat 
est un ensemble de vecteurs dont la dimension est egale a la dimension 
30 du segment de projection 

d2/ calcul des proprietes statistiques de chaque vecteur de projection 
(moyenne, variance, les moments). 

Le terme representant la forme est constitue des valeurs des proprietes 
statistiques de chaque vecteur de projection. 
35 On considerera a nouveau le schema general du systeme 

d'interception illustre sur la figure 6. 
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Lors de la reception d'un document suspect, le module 260 de 
comparaison compare I'emprelnte du document regu a celles de la base 
d'empreintes. Le role de la fonction de comparaison est de calculer la 
fonction de pertinence qui, a chaque document, lui associe une valeur 
5 reelle qui indique le degre de ressemblance du contenu du document avec 
celui du document suspect (degre de pertinence). Si cette valeur est 
superieure a un seuil, le document suspect 211 est considere comme 
contenant des copies des portions du document avec lequel il vient d'etre 
compare. Une alerte est alors generee par les moyens 213. Elle sera 

10 traitee pour bloquer la diffusion du document etyou generer un rapport 
214 explicitant les conditions de diffusion du document. 

II est possible d'intercaler en outre, entre le module 260 de 
comparaison d'empreintes et les moyens 213 de traitement d'alertes, un 
module 212 de calcul de similarite entre documents qui comprend des 

15 moyens de production d'un vecteur de correlation representant un degre 
de correlation entre un vecteur de concepts pris dans un ordre donne 
definissant I'empreinte d'un document sensible et un vecteur de concepts 
puis dans un ordre donne definissant I'empreinte d'un document 
intercepte suspect. 

20 Le vecteur de correlation permet de determiner un score de 

ressemblance entre le document sensible et le document intercepte 
suspect considered, et les moyens 213 de traitement d'alertes delivrent les 
references d'un document intercepte suspect lorsque la valeur du score de 
ressemblance de ce document est superieure a un seuil predetermine. 

25 Le module 212 de calcul de similarite entre documents interpose 

entre le module 260 de comparaison d'empreintes et les moyens 213 de 
traitement d'alertes peut presenter d'autres formes et a titre de variante 
peut comprendre. 

(a) des moyens de production d'une onde d'interference 
30 representant le resultat d'appariement entre un vecteur de concepts pris 

dans un ordre donne definissant I'empreinte d'un document sensible et un 
vecteur de concepts pris dans un ordre donne definissant I'empreinte d'un 
document intercepte suspect, et 

(b) des moyens de production d'un vecteur d'interference a 
35 partir de cette onde d'interference permettant de determiner un score de 
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ressemblance entre le document sensible et le document intercepts 
suspect consideres. 

Des moyens 213 de traitement d'alertes delivrent les references 
d'un document intercepts suspect lorsque la valeur du score de 
5 ressemblance de ce document est superieure a un seuil predetermine. 

Le module 212 de calcul de similarite entre documents selon 
cette derniere variante permet de mesurer le taux de ressemblance entre 
deux documents en tenant compte de la propriete algebrique et 
topologique entre les concepts de ces deux documents. Le principe de la 

10 methode consiste a generer dans le cas d'un lineaire (texte, audio et 
video) une onde d'interference qui exprime la collision entre les concepts 
et ses voisins des documents questions avec ceux des documents 
reponses. A partir de cette onde d'interference, on calcule un vecteur 
d'interference qui permet de determiner la similarite entre documents en 

15 tenant compte du voisinage des concepts. Dans le cas d'un document a 
plusieurs dimensions, on produit plusieurs ondes d'interference, soit une 
onde par dimension. Dans le cas d'une image par exemple, les positions 
des termes (concepts) sont projetees dans les deux directions et pour 
chaque direction, on calcule son onde d'interference. Le vecteur 

20 d'interference resultant est une combinaison des deux vecteurs. 

On decrira ci-dessous un exemple de calcul d'une onde d'interference y 
pour un document a une seule dimension, tel qu'un document de type 
texte. 

25 

Soient le document texte D et le document question Q, et soit y Dj Q la 
fonction d'interference definie de U (ensemble ordonne des couples 
(unites linguistiques :termes ou concepts, positions) (u,p) du document 
D) et I'ensemble E dont les valeurs sont comprises entre 0 et 2. 
30 Dans le cas ou I'ensemble est constitue des elements a valeurs entieres : 
E = {0, 1, 2}, la fonction y D ,Q est definie par : 

7b,Q(u, P ) = 2 <=> I'unite linguistique « u » n'existe pas dans le document 
question Q. 
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Td,q(u, P ) = 1 <=> I'unite linguistique « u » existe dans le document question 
Q mais isolee. 

Yd,q( U/P ) = 1 I'unite linguistique « u » existe dans le document question 
Q et elle a au moins une voisine « u' » qui est une voisine de I'unite 
5 linguistique « u » dans le document D. 

La fonction yd,q peut etre assimilee a un signal dont 1'amplitude 
est entierement comprise entre 0 et 2 et dont les echantillons sont les 
couples (ui,pi). 

10 yd,q est appelee onde d'interference. En effet elle permet de materialiser 
les interferences qui existent entre les documents D et Q. La figure 18 
correspond a la fonction (D,Q) des documents D et Q. 

Exemple d'onde d'interference : 

15 

D : "L'enfant de mon voisin va a la piscine apres la sortie de I'ecole pour 
apprendre a nager, tandis que sa sceur reste a la maison" 

Qi : "L'enfant de mon voisin va apres I'ecole en velo a la piscine pour 
20 nager, alors que sa soeur reste a la garderie". 

7b,Q(enfant) = 0 parce que le mot "enfant" est present dans D et Q, et son 
voisin dans D est aussi son voisin dans Q. 

25 y D ,Q(voisin) = y D ,Q(va) = 7b,o.(nager) = y D , Q (sceur) = y D/ Q(reste) = 0 pour 
les meme raisons. 

YD,Q(piscine) = YD,Q(ecole) = 1 parce que les mots « piscine », « ecole >> 
sont presents dans D et Q mais leurs voisins dans D ne sont pas les 
memes dans Q. 

30 YD,Q(sortie) = ^(apprendre) = ^qCmaison) = 2 parce que les mots 
« sortie », « apprendre », « maison » existent dans D mais n'existent pas 
dans Q. 

La figure 19 correspond a la fonction (D, Q 2 ) des documents D 

et Q 2 . 

35 

Q2 : "L'enfant rentre a la maison apres I'ecole" 
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La fonction y D ,Q renseigne sur le degre de ressemblance entre D 
et Q. L'analyse de cette fonction permet d'identifier les documents Q qui 
sont proches de D. Ainsi, on peut remarquer que Ql est plus proche de D 
que Q2. 

5 Pour faciliter l'analyse de y D ,Q/ on peut introduire deux vecteurs 

V 0 et Vi, dits vecteurs d'interference : 
Vo : recense le nombre de zeros contigus dans y d ,q 
Vi : recense le nombre de Un contigus dans yd,q. 

La dimension de Vo est egale a la taille de la plus grande 
10 sequence de zeros dans yd,q 

Les vecteurs d'interference VO et VI sont definis de la facon 

suivante : 

La dimension de Vi a la taille de la plus grande sequence de UN 

dans 7b,Q 

15 La case V0[n] contient le nombre de sequences de taille n dans 

le niveau 0. 

La case Vl[n] contient le nombre de sequences de taille n dans 
le niveau 1. 

Les vecteurs d'interference de I'exemple precedent sont illustres 
20 sur les figures 20 et 21. 

Le cas (D,Qi) est illustre sur la figure 20 : 

La dimension de V 0 est 3 parce que la sequence la plus longue 
dans le niveau 0 est 3. 

La dimension de Vi est 1 parce que la sequence la plus longue 
25 dans le niveau 1 est 1. 

Le cas (D,Q 2 ) : est illustre sur la figure 21 : 

Le vecteur Vo est vide parce qu'il n'existe pas de sequence dans 
le niveau 0. 

La dimension de Vi est 1 parce que la sequence la plus longue 
30 dans le niveau 1 est 1. 

Pour calculer le taux de similarity (score) permettant la 
generation des alertes, on a deYini la fonction suivante : 

n m 

35 05 = * -— & 

3 

tel que : 
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03 : taux de similarity (score). 
V 0 : Vecteur d'interference du niveau 0. 
Vi : Vecteur d'interference du niveau 1. 
T\ taille du document texte D en unites linguistiques. 
5 n : taille du vecteur d'interference du niveau 0. 
777 : taille du vecteur d'interference du niveau 1. 

a: est une valeur superieure a un, utilisee pour donner plus dlmportance 
aux sequences de zero. Dans les deux exemples suivants on a pris a egal 
a 2. 

10 p : coefficient de normalisation, il est egal a 0.02*T dans I'exemple 
considered 

Cette formule permet de calculer le taux de similarity entre le 
document D et le document question Q. 

15 Les scores de I'exemple precedent sont comme suit : 

Cas (D,Q0 : 

_ 2x(lx0 + 2x0+3x2) + (lx2) inn 14 , nn 

® = — — -X100 = — xlOO = 63,63% 

2x11 22 

Cas (D,Q 2 ) : 

m = 7T^T x100 = —xlOO = 13,63% 
20 2xll 22 

Le processus de generation d'alerte peut etre le suivant : 
Initialisation de la fonction de pertinence : Pertinence (i) : 
Pour i = 0 a i egal au nombre de documents faire: Pertinence (i) = 0 ; 
Extraction des termes du document suspect. 
25 Pour chaque terme on determine son concept. 

Pour chaque concept q on determine les documents dans lesquels le 
concept est present. 

Pour chaque document dj mettre a jour sa valeur de 
pertinence : 



30 



Pertinence(di) = Pertinence(di) + Pertinence(di, cj), avec Pertinence^, q) 
est le degre de pertinence du concept c, dans le document dj qui depend 
du nombre d'occurrences du concept dans le document et de sa presence 
dans les autres documents de la base : plus le concept est present dans 
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les autres documents plus sa pertinence est attenuee dans le document 
en question. 

Selectionner les K documents dont la valeur est superieure a un 
seuil donne. 

5 Correler les termes des documents reponses avec les termes de 

la question et etablir une nouvelle liste de reponses. 

Appliquer le module 212 sur la nouvelle liste de reponses. Si le 
score est superieur a un seuil donne, le document suspect est considere 
comme contenant des portions des elements de la base. Une alerte est 

10 alors generee. 

On considerera a nouveau le traitement de documents dans les 
modules 221, 222 de creation d'empreintes de documents (figure 6) et les 
processus d'extraction de termes (etape 502) et d'extraction de concepts 
(etape 504) deja evoques en particulier en reference a la figure 8. 

15 Lors de I'indexation d'un document multimedia comportant des 

signaux video, on choisit des termes ti constitues par des images-cles 
representant des groupes d'images homogenes consecutives, et on 
determine des concepts q par regroupement des termes tj. 

La detection des images des repose sur le regroupement des 

20 images d'un document video en groupes contenant chacun uniquement 
des images homogenes. De chacun des groupes on extrait une ou 
plusieurs images (appelees images des) representant le document video. 

Le regroupement des images du document video repose sur la 
production d'un vecteur score appele VS representant le contenu de la 

25 video, il caracterise la variation des images consecutives de la video 
(I'element VSj materialise la difference entre le contenu de I'image d'indice 
i et celui de I'image d'indice i-1), VS est egal a zero quand les contenus imi 
et imj-! sont identiques et il est important quand la difference entre les 
deux contenus est importante. 

30 Pour calculer le signal VS, les trois bandes de chaque image imi 

RGB d'indice i de video sont additionnees poUr ne constituer qu'une seule 
image qu'appelee TRi. Ensuite, I'image TRi est decomposee en plusieurs 
bandes de frequence pour ne conserver que la composante basse 
frequence TRBi. On utilise pour cela deux filtres a miroir (un filtre Passe 

35 bas PB et un filtre Passe Haut PH) qui sont appliques successivement sur 
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les lignes et sur les colonnes de I'image. On considerera deux types de 
filtre : Pondelette de Haar et le filtre dont I'algorithme est le suivant : 

Balayage ligne 
5 A partir de TRk on produit I'image Bas 
Pour chaque point a^j de I'image TR faire 

Calculer le point by de I'image basse frequence bas, by prend la valeur 
mediane de a^y-i, a2xy et a2xy+i. 

10 Balayage Colonne 

A partir des deux images Bas on produit I'image TRBk 
Pour chaque point b,,2xj de I'image TR faire 

Calculer le point bby de I'image basse frequence bas, bby prend la valeur 
mediane de bj /2 >cj-i,bj,2xj et bj,2>g+i 
15 Les balayages ligne et colonne sont appliques autant de fois 

qu'on le souhaite. Le nombre d'iterations depend de la resolution des 
images de la video. Pour des images de taille 512x512 ou peut fixer n a 
trois. 

L'image resultat TRBi est projetee dans plusieurs directions pour 
20 obtenir un ensemble de vecteurs Vk, k est Tangle de projection 

(I'elementj de VO, vecteur obtenu suite a la projection horizontale de 

I'image, est egal a la somme de tous les points de la ligne j de I'image). 

Les vecteurs de directions de I'image TRBi sont compares aux vecteurs de 

direction de TRBi-1 pour obtenir un score i qui mesure la similarite entre 
25 ces deux images. Ce score est obtenu par la moyenne de toutes les 

distances des vecteurs de meme direction : pour chaque k on calcule la 

distance entre le vecteur Vk de I'image i et le vecteur Vk de I'image i-1 

puis on calcule toutes ces distances. 

L'ensemble de tous les scores constitue le vecteur score VS : 
30 I'element i de VS mesure la similarite entre I'image TRBi et I'image TRBi-1. 

Le vecteur VS est lisse afin d'eliminer les irregularites du au bruit 

engendre lors la manipulation de la video. 

On decrira ci-apres un exemple de regroupement des images et 

d'extraction des images cles. 
35 Le vecteur VS est analyse afin de determiner les images cles qui 

correspondent aux maximums des valeurs de VS. Une image d'indice j est 
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considered comme une image-cle si la valeur VS(j) est un maximum et si 
VSQ) est situe entre deux minimums minG (minimum gauche) et minD 
(minimum droite) et si le minimum Ml tel que 

Ml = min ( | VS(Cj)-minG I , I VS(j)-min D I ) est superieur a un seuil donne. 

5 Pour detecter les images-cles, on initialise minG avec VS(0) puis 

on parcourt le vecteur VS de la gauche vers la droite. A chaque etape, on 
determine I'indice j correspondant a la valeur maximale situee entre deux 
minimums (minG et minD) puis en fonction du resultat de I'equation 
definissant Ml on decide de considerer j comme un indice d'une image-cle 

10 ou non. II est possible de prendre un groupe de plusieurs images-cles 
voisines, par exemple des images-cles d'indices j-l, j et j+1. 

Trois cas se presentent si le minimum des deux pentes, definies 
par les deux minimums (minG et minD) et la valeur maximale, n'est pas 
superieur au seuil : 

15 i) Si IVSQ) - minGI est inferieur au seuil et que minG ne 

correspond pas a VS(o), le maximum VSQ) est ignore et minD devient 
minG, 

ii) Si |VS(j) - minGI est superieur au seuil et si | VS(j)-minD | est 
inferieure au seuil, le minD et le maximum VSQ) sont conserves et minD 
20 est ignore sauf si le plus proche maximum a droite de min D est superieur 
a un seuil. Dans ce cas, on conserve aussi minD et on declare j comme un 
indice d'une image-cle. Dans le cas ou minD est ignore, minD prendra la 
valeur la plus proche du minimum situe a droite de minD. 

Hi) Si les deux pentes sont inferieures au seuil, minG est 
25 conserve et minD et j sont ignores. 

Apres selection d'une image-cle, on itere le processus. A chaque 
iteration minD devient minG. 
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REVINDICATIONS 

1. Systeme d'interception de documents multimedias diffuses a 
5 partir d'un premier reseau (A), caracterise en ce qu'il comprend un module 

(110) d'interception et de traitement de paquets d'informations 
comportant chacun un en-tete d'identification et un corps de donnees, le 
module (110) d'interception et de traitement de paquets comprenant des 
premiers moyens (101) d'interception des paquets diffuses a partir du 

10 premier reseau (A), des moyens (102) d'analyse de I'en-tete des paquets 
afin de determiner si un paquet analyse fait partie d'une connexion deja 
etablie, des moyens (104) de traitement des paquets reconnus comme 
faisant partie d'une connexion deja etablie pour determiner I'identificateur 
de chaque paquet recu et acceder a un conteneur de stockage (115) ou 

15 les donnees presentes dans chaque paquet regu sont sauvegardees, et 
des moyens (103) de creation d'un automate charge de traiter les paquets 
recus propres a une nouvelle connexion si les moyens (102) d'analyse de 
I'en-tete des paquets ont revele qu'un paquet analyse constitue une 
demande de nouvelle connexion, les moyens (103) de creation d'un 

20 automate comprenant notamment des moyens de creation d'un nouveau 
conteneur de stockage (115) destine a contenir les ressources necessaires 
au stockage et a la gestion des donnees produites par les moyens (104) 
de traitement de paquets associes a la nouvelle connexion, un triplet 
<identificateur, drapeau de I'etat de la connexion, conteneur de 

25 stockage> etant cree et associe a chaque connexion par lesdits moyens 
(103) de creation d'un automate, et en ce qu'il comprend en outre des 
moyens (111) pour analyser le contenu des donnees stockees dans les 
conteneurs (115), reconnaitre le protocole utilise parmi un ensemble de 
protocoles standards tels que notamment http, SMTP, FTP, POP, IMAP, 

30 TELNET, P2P, analyser le contenu transports par ce protocole et 
reconstituer les documents interceptes. 

2. Systeme d'interception selon la revendication 1, caracterise en 
ce que les moyens (102) d'analyse et les moyens (104) de traitement 
comprennent une premiere table (116) d'etablissement de connexion 

35 contenant, pour chaque connexion en cours d'etablissement, un 
identificateur "idConnexion" et un drapeau "etat connexion", et une 
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deuxieme table (117) ^identification de conteneur contenant, pour 
chaque connexion deja etablie, un identificateur "idConnexion" et une 
reference "refConteneur" qui identifie le conteneur (115) dedie au 
stockage des donnees extraites des trames de la connexion ayant pour 
5 identificateur "idConnexion". 

3. Systeme d'interception selon la revendication 2, caracterise en 
ce que le drapeau "etatConnexion" de la premiere table (116) 
d'etablissement de connexion peut prendre trois valeurs possibles (P10, 

10 Pll, P12) selon que le paquet detecte correspond a une demande de 
connexion par un client, a une reponse d'un serveur ou a une confirmation 
par le client. 

4. Systeme d'interception selon Tune quelconque des 
15 revendications 1 a 3, caracterise en ce que les premiers moyens (101) 

d'interception des paquets, les moyens (102) d'analyse de I'en-tete des 
paquets, les moyens (103) de creation d'un automate, les moyens (104) 
de traitement de paquets et les moyens (111) d'analyse du contenu des 
donnees stockees dans les conteneurs (115) fonctionnent de facon 
20 autonome et asynchrone. 

5. Systeme d'interception selon I'une quelconque des 
revendications 1 a 4, caracterise en ce qu'il comprend en outre un premier 
module (120) de stockage du contenu des documents interceptes par le 

25 module (110) d'interception et de traitement de paquets et un deuxieme 
module (121) de stockage des informations concernant au moins 
I'emetteur et le destinataire des documents interceptes. 

6. Systeme d'interception selon la revendication 5, caracterise en 
30 ce qu'il comprend en outre un module (122) de stockage d'informations 

concernant des composantes resultant d'une dissection du contenu des 
documents interceptes. 

7. Systeme d'interception selon I'une quelconque des 
35 revendications 1 a 6, caracterise en ce qu'il comprend en outre un 

systeme centralise (200) comprenant des moyens (221) de fabrication 
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d'empreintes de documents sensibles a surveiller, des moyens (222) de 
fabrication d'empreintes de documents intercepted, des moyens (220) de 
stockage des empreintes fabriquees a partir des documents sensibles a 
surveiller, des moyens (250) de stockage des empreintes fabriquees a 

5 partir des documents interceptes, des moyens (260) de comparaison 
d'empreintes issues des moyens (250) de stockage des empreintes 
fabriquees a partir des documents interceptes et d'empreintes issues des 
moyens (220) de stockage des empreintes fabriquees a partir des 
documents sensibles a surveiller et des moyens (213) de traitement 

10 d'alertes contenant les references des documents interceptes 
correspondant a des documents sensibles. 

8. Systeme d'interception selon la revendication 7, caracterise en 
ce qu'il comprend des moyens (130) de selection reagissant aux moyens 

15 (213) de traitement d'alertes pour assurer le blocage ou la retransmission 
de documents interceptes, vers un deuxieme reseau B, selon les resultats 
delivres par les moyens (213) de traitement d'alertes. 

9. Systeme d'interception selon la revendication 7 ou la 
20 revendication 8, caracterise en ce que le systeme centralise (200) 

comprend en outre des moyens (230) pour associer a chaque document 
sensible a surveiller des droits definissant les conditions d'exploitation du 
document, et des moyens (240) de stockage des informations relatives a 
ces droits. 

25 

10. Systeme d'interception selon I'une quelconque des 
revendications 1 a 9, caracterise en ce qu'il est interpose entre un premier 
reseau A de type Intranet et un second reseau B de type Intranet. 

30 11. Systeme d'interception selon I'une quelconque des 

revendications 1 a 9, caracterise en ce qu'il est interpose entre un premier 
reseau A de type Internet et un second reseau B de type Internet. 

12. Systeme d'interception selon I'une quelconque des 
35 revendications 1 a 9, caracterise en ce qu'il est interpose entre un premier 
reseau A de type Intranet et un second reseau B de type Internet. 
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13. Systeme d'interception selon Tune quelconque des 
revendications la9, caracterise en ce qu'il est interpose entre un premier 
reseau A de type Internet et un second reseau B de type Intranet. 

5 

14. Systeme d'interception selon la revendication 13, caracterise en 
ce qu'il comprend en outre un generateur de requetes (300) a partir de 
documents sensibles a proteger, pour injecter des requetes dans le 
premier reseau A. 

10 

15. Systeme d'interception selon la revendication 14, caracterise en 
ce que le generateur de requetes (300) comprend : 

-des moyens (301) de production de requetes a partir des 
documents sensibles a surveiller, 
15 - des moyens (302) de stockage des requetes produites, 

-des moyens (303) de fouille du premier reseau A a I'aide d'au 
moins un moteur de recherche utilisant les requetes precedemment 
stockees, 

-des moyens (304, 306) de stockage de references de fichiers 
20 suspects issus du premier reseau A, et 

- des moyens (305) d'aspiration des fichiers suspects references 
dans les moyens (304, 306) de stockage de references et du voisinage 
eventuel de ces fichiers suspects. 

25 16. Systeme d'interception selon I'une quelconque des 

revendications 7 a 9, caracterise en ce que lesdits moyens (260) de 
comparaison d'empreintes delivrent une liste de documents suspects 
retenus (211) avec un degre de pertinence par rapport a des documents 
sensibles et les moyens de traitement d'alertes (213) delivrent les 

30 references d'un document intercepts lorsque le degre de pertinence de ce 
document est superieur a un seuil predetermine. 

17. Systeme d'interception selon Tune quelconque des 
revendications 7 a 9, caracterise en ce qu'il comprend en outre, entre 
35 lesdits moyens (260) de comparaison d'empreintes et lesdits moyens 
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(213) de traitement d'alertes, un module (212) de calcul de similarity 
entre documents qui comprend : 

(a) des moyens de production d'une onde d'interference representant le 
5 resultat d'appariement entre un vecteur de concepts pris dans un 

ordre donne definissant I'empreinte d'un document sensible et un 
vecteur de concepts pris dans un ordre donne definissant I'empreinte 
d'un document intercepte suspect, et 

(b) des moyens de production d'un vecteur d'interference a partir de 
10 ladite onde d'interference permettant de determiner un score de 

ressemblance entre le document sensible et le document intercepte 
suspect consideres, les moyens (213) de traitement d'alertes 
delivrant les references d'un document intercepte suspect lorsque la 
valeur du score de ressemblance de ce document est superieure a un 
15 seuil predetermine. 

18. Systeme d'interception selon I'une quelconque des 
revendications 7a9, caracterise en ce qu'il comprend en outre, entre 
lesdits moyens (260) de comparaison d'empreintes et lesdits moyens 

20 (213) de traitement d'alertes, un module (212) de calcul de similarity 
entre documents qui comprend des moyens de production d'un vecteur de 
correlation representant le degre de correlation entre un vecteur de 
concepts pris dans un ordre donne definissant I'empreinte d'un document 
sensible et un vecteur de concepts pris dans un ordre donne definissant 

25 I'empreinte d'un document intercepte suspect, le vecteur de correlation 
permettant de determiner un score de ressemblance entre le document 
sensible et le document intercepte suspect consideres, les moyens (213) 
de traitement d'alertes delivrant les references d'un document intercepte 
suspect lorsque la valeur du score de ressemblance de ce document est 

30 superieure a un seuil predetermine. 
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